Image default
Нейросети

В России создали первое ПО для генерации музыки и песен с помощью ИИ

Первое в России программное обеспечение для генерации аудиоконтента на основе нейросетевых моделей разработали специалисты Новосибирского государственного технического университета. Об этом ТАСС сообщил руководитель проекта Егор Антонянц.

Разработка предназначена для задач, где важна автономная генерация музыкальных композиций, вокальных партий и звуковых эффектов по текстовым описаниям без привязки к облачным сервисам. По словам разработчиков, система обеспечивает полный цикл создания аудиопродукции — от текстового запроса до экспорта в широко используемые форматы WAV, MP3 и FLAC — и при этом работает на потребительском оборудовании с объемом видеопамяти менее 6 ГБ.

«Ключевая особенность нашего решения — это полная независимость от зарубежных платформ и возможность работы в закрытом контуре. Мы дообучили базовую модель специализированными LoRA-адаптерами под три типа контента: инструментальную музыку, песни с вокалом и звуковые эффекты, что позволяет избежать эффекта смешения характеристик и добиться более точного соответствия запросу», — отметил Антонянц.

В отличие от базовых решений, ориентированных на англоязычных пользователей, новый инструмент адаптирован для работы с русскоязычными запросами и показывает конкурентоспособные результаты. Так, значение средней субъективной оценки MOS составило 4,1 из 5 баллов, что сопоставимо с показателями ведущих коммерческих платформ.

Читать далее:
ИИ-агент «напал» на разработчика из-за разногласий: в чем дело

«Технически обработка строится в несколько этапов: языковая модель формирует семантический “каркас” композиции с использованием “цепочки рассуждений”, диффузионный трансформер выполняет акустический синтез в латентном пространстве, а модуль экспорта обеспечивает конвертацию в целевые форматы. Встроенный графический интерфейс позволяет управлять проектами, сохранять и загружать пресеты параметров генерации, предпрослушивать результаты и экспортировать треки без привлечения сторонних редакторов», — рассказал разработчик проекта Артур Хусаинов.

Создатели ПО подчеркнули, что в дальнейшем планируется расширение системы: добавление поддержки пространственного аудио для задач виртуальной реальности, реализация интеграции с MIDI-контроллерами для живого взаимодействия и адаптация программного обеспечения для промышленных сценариев — от создания звуковых ландшафтов для видеоигр до автоматизированного озвучивания фильмов, прямых трансляций, подкастов и рекламных роликов.

Похожие записи

Созданы алгоритмы для проверки ИИ-систем на «галлюцинации»

admin

Опасная милота: почему видео со сгенерированными ИИ животными могут навредить природе

admin

Власти Малайзии заблокировали чат-бот Grok из-за непристойного контента

admin