Сбер опубликовал KVAE-Audio с открытым исходным кодом
В открытый доступ выложили алгоритм для сжатия аудиоданных. Инструмент обрабатывает звук в формате 48 кГц и сжимает его в 960 раз по времени. Итоговое латентное пространство ограничено 64 каналами. Компактный размер представления позволяет значительно быстрее обучать генеративные модели, чем если бы они обучались на сырых аудиосигналах.
При разработке подобных решений всегда требуется точный баланс между качеством восстановления изначального звука и генерацией нового. Инженеры внедрили кастомную технику регуляризации для решения типичной проблемы сильного перекоса алгоритмов в сторону реконструкции. Благодаря такому подходу архитектура превзошла токенизатор MMAudio от Sony по всем измеряемым метрикам. Модель также обошла DACVAE от Meta и SAME-L от Stability AI в качестве генерации, сохранив аналогичный уровень восстановления при радикально меньшем количестве параметров.
Проект стал логичным продолжением семейства KVAE. Ранее в этой линейке были опубликованы решения для компрессии изображений и видео. Код и веса доступны GitHub и HuggingFace под свободной лицензией MIT.
Блогпост
Код
Веса
@ai_newz
_______
Источник | #ai_newz
@F_S_C_Р
Комментариев нет:
Отправить комментарий