URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID3
Нить номер: 128827
[ Назад ]

Исходное сообщение
"Facebook опубликовал звуковой кодек EnCodec, использующий машинное обучение"

Отправлено opennews , 02-Ноя-22 17:22 
Компания Facebook (запрещена в РФ) представила новый звуковой кодек EnCodec, использующий методы машинного обучения для повышения степени сжатия без потери качества. Кодек может применять как для потоковой передачи звука в режиме реального времени, так и для кодирования для последующего сохранения в файлах. Эталонная реализация EnCodec написана на языке Python с использованием фреймворка  PyTorch  и распространяется под лицензией CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial), допускающей использование только в некоммерческих целях...

Подробнее: https://www.opennet.me/opennews/art.shtml?num=58029


Содержание

Сообщения в этом обсуждении
"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено Аноним , 02-Ноя-22 17:40 
Ни один человек, если он хотя бы имеет IQ как у хлебушка, не станет внедрять в качестве кодека ту *****, которую сможет распутать только неизвестно как обученный и устроенный внутри ИИ

Традиционные кодеки практичны, надёжны и работают по очевидному алгоритму на всех этапах который легко воспроизвести с нуля


"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено topin89 , 02-Ноя-22 18:06 
Я понимаю ощущения, но думаю дело в хайпе нейронок vs классические методы. Вот возьмём JPG обычный. Там внутре есть матрица квантования (умно звучит, но там просто целочисленно делят поэлементно), и подобрали её те же нейронки, только биологические. Хотя могли и полным перебором, и машинным обучением и как угодно ещё.

Даже банальная конверсия цветного изображения в чб основана на непонятных магических коэффициентах, собраных когда-то давно буквально на глазок.

Лично помню случай, когда портативный Blender был сначала сжать через ZIP, потом 7Z -- и это сработало вопреки всему, и не предскажешь такое, хоть и нет там нейронок.

В нейронках как раз архитектура простая, но коэффициентов не 5-100, а >9000. И то, что подбирали их через машинное обучение, а не наугад -- детали.

Сами по себе натренированные нейронки работают предсказуемо, и если 10 раз подать на вход один и тот же файл, 10 раз на выходе будет один и тот же результат. Только подбор коэффициентов случаен.


"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено Аноним , 02-Ноя-22 19:01 
У тебя всё в кашу перемешалось. Что касается "цветного изображения в чб", дак это только для тебя магия, а для остальных - коэффициенты вытекают из чувствительности глаза к разным цветам.

"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено kai3341 , 03-Ноя-22 02:38 
> коэффициенты вытекают из чувствительности глаза к разным цветам.

Очевидно, этот глаз хранится в Бюро Мер и Весов. Хочешь сказать, все люди воспринимают цвета одинаково?


"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено Аноним , 03-Ноя-22 09:21 
Усредняют. Правда, некоторая дельта есть - потому и модели разные.

"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено Аноним , 02-Ноя-22 18:51 
> работают по очевидному алгоритму на всех этапах

Экспертиза уровня опеннет. Открой исходники любого кодека и почитай. Ротом расскажешь об «очевидных алгоритмах».


"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено муу , 04-Ноя-22 12:13 
> Экспертиза уровня опеннет

ну если для тебя они не очевидны вали учить математику с физикой, эксперт уровня "ответы mail.ru" ты наш


"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено topin89 , 06-Ноя-22 22:31 
> ну если для тебя они не очевидны вали учить математику с физикой,
> эксперт уровня "ответы mail.ru" ты наш

То-то и оно, математика нейронок проще, чем математика условных AV1 или OGG.


"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено Аноним , 02-Ноя-22 21:51 
Ты ошибаешьшься. Если кодек - lossless, то ничего не мешает при улучшении моделей перекодировать на новые. То есть фейсбук выпустила кодек, и его сразу можно использовать. Все перекодировали все свои песни на этот кодек, сэкономили место на своих телефонах. PROFIT. А заинтересованные лица улучшают нейронку потихоньку. Питорч кстати тормознутое говно дли инференса, лучше ONNX Runtime ничего нет, даже Apache TVM после 1,5 часовой оптимизации модели что для CPU, что для Vulkan поверх AMDGPU у него сосёт (модель MobileViT, причём ONNX Runtime готов к использованию сразу, без всяких 1.5 часовых оптимизаций и компиляций в машинный код).

Потом заинтересованные лица наконец улучшат модель, и .... телефон её скачает, и в фоне перекодирует всю музыку. И свободного места ещё прибавится, "самим собой", просто за счёт улучшерия модели. Освобождённое место можно забить записанным вашим трёпом, который переслать Фейсбуку, на нём натренеруют новую модель, которая будет жать ещё лучше...


"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено Diozan , 03-Ноя-22 08:45 
>>>Традиционные кодеки практичны, надёжны и работают по очевидному алгоритму на всех этапах который легко воспроизвести с нуля

Вот только режут звук со сложным спектром, ибо не обучены вычленять звук бас-гитары или вокала или скрипки из общего потока. И как результат, например, тарелочки не звенят, а цыкают, а из состава симфонического оркестра просто тупо выпадают некоторые инструменты.


"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено Аноним , 03-Ноя-22 10:16 
Очередная модно-молодёжная нейронка, досочиняющая нёх на ходу, проблему не решит. Так что ходи лучше в филармонию и слушай вживую.

"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено topin89 , 06-Ноя-22 22:36 
> Очередная модно-молодёжная нейронка, досочиняющая нёх на ходу, проблему не решит. Так что
> ходи лучше в филармонию и слушай вживую.

Давно изучал как работают самые мощные сжимающие алгоритмы вроде PAQ. Там, внезапно, тоже нейронка, c 2005 года. Такие алгоритмы сжатия сначала получают предсказанный (сочинённый) результат, находят разницу между предсказанным и реальным, и её уже сжимают.


"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено pashev.ru , 02-Ноя-22 17:40 
А линейная регрессия — это ведь тоже машинное обучение?

"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено Онанистмус , 02-Ноя-22 19:45 
Да. Это первое чему учат.

"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено _dz , 02-Ноя-22 23:14 
Зависит от того, как считается. Если подбором параметров - да, если решается в явном виде - нет.

"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено pashev.ru , 03-Ноя-22 03:01 
Ты тут нам маркетинг не хулюгань!

"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено pashev.ru , 02-Ноя-22 17:44 
Опять что-то типа речь—текст—речь?

"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено Аноним , 02-Ноя-22 19:59 
Словарь Эллочки-людоедки составлял 30 слов, но ими она могла выразить практически любую свою мысль.

"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено Аноним , 02-Ноя-22 21:02 
хватит и двух:
хохо, парниша!

"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено гоквч , 03-Ноя-22 09:39 
я есть Грут

"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено Аноним , 07-Ноя-22 01:29 
вижу 3

"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено X , 02-Ноя-22 23:11 
Типа отправил музыку, получил акопеллу на выходе?

"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено Аноним , 03-Ноя-22 00:47 
с нейросеткой возможно всё.

"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено n00by , 03-Ноя-22 10:50 
Типа смотрим видосик, а там поют:

Денег мало, длинный шмель,
Ты в кибитку не ходи!


"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено annonn , 02-Ноя-22 18:14 
(Не)удивительно читать подобное нытье.
Фейсбук сделал для себя какой-то алгоритм, который подходит под их задачи и ограничения.
Они решили поделиться результатом со всем миром.
Если тебе подходит - пользуйся на здоровье, если не подходит - не пользуйся.

Вроде весь опенсорс так работает.


"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено Вы забыли заполнить поле Name , 02-Ноя-22 18:34 
Это не нытье, а критика. Учитесь различать. Или все должны восхвалять проекты fb?

"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено annonn , 02-Ноя-22 18:44 
Критику увидел только в паре сообщений - там где есть обоснования и примеры "почему это плохо"
А остальные просто ноют.

"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено Аноним , 03-Ноя-22 00:36 
И почему нельзя поныть?
Цензуришь, парниша

"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено Аноним , 02-Ноя-22 18:55 
В очередной раз Фейсбук делает за день для опенсорса больше, чем весь опеннет вместе взятый за неделю. Ждём местную Си-элиту напрогать алгоритм лучше и быстрее. Время пошло.

"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено триммер , 02-Ноя-22 19:37 
Лучше чем aptX все-равно не получится.
Лучше бы они над энергоэффективностью носимых устройств поработали.
И вцелом над носимыми устройствами. А то ведь кроме атомных часов ничего толком от них и нет...

"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено Аноним , 02-Ноя-22 21:08 
А что вы скажете на то, что дискриминация добралась уже до звуковых кодеков?! И куда только конгресс смотрит.

"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено Марк Ц. , 03-Ноя-22 00:38 
Хорошо лизнул, мне понравилось

"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено YetAnotherOnanym , 02-Ноя-22 19:51 
> Дискриминатор улучшает качество генерируемых образцов (sample) с учётом модели человеческого слухового восприятия

Вот с этого момента, пожалуйста, поподробнее.


"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено Аноним , 02-Ноя-22 19:57 
читать надо так: мы выкинул большую часть информации.

"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено annonn , 02-Ноя-22 20:45 
... то что "внезапно" происходит во всех алгоритмах сжатия с потерями

"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено Аноним , 02-Ноя-22 19:57 
Говорят, опенсорсят, чтобы при делении компании было проще передать код.

"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено Вы забыли заполнить поле Name , 02-Ноя-22 20:53 
Вполне может быть. Хотя основная задача - это найм и популяризация компании.

"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено Аноним , 02-Ноя-22 20:52 
>> когда при использовании MP3 требуется полоса пропускания в 64 kbps, для передачи с тем же качеством в EnCodec достаточно 6 kbps

1) пруфы??
2) кто слушает мп3 в 64кбпс?


"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено _kp , 02-Ноя-22 21:19 
Почему Вы таки думаете, что это для музыки? Для какого нибудь голосового чата в мобильном приложении вполне применимо же. И помимо мессенджеров есть еще и игры, где тоже нужен голосовой чат, не забивающий весь мобильный канал связи.

"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено Аноним , 02-Ноя-22 21:37 
так как 48 кгц - это двд аудио, а не сд.. а 24 кгц - это вообще дичь какая то.. у кого цап в такое может?

"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено Судья из Калифорнии с опытом программирования , 03-Ноя-22 08:37 
У кого цап не может, тот умеет в ресемплинг.

"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено Аноним , 03-Ноя-22 11:13 
слово на википедии нашел новое? покажи ка как ды делаешь ресемплинг в 24кгц

"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено topin89 , 06-Ноя-22 18:41 
Берём исходные данные в 48 кГц и оставляем диапазон 0-12 кГц любыми фильтрами любого порядка, по вкусу. Забираем каждое второе измерение -- и всё.
На воспроизведении, вставляем каждый первый элемент как нулевой, второй из переданного аудио, снова фильтр на 0-12 кГц -- и на ЦАП 48 кГц. Элементарная же операция, серьёзно.

"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено Аноним , 03-Ноя-22 11:24 
после этого комента я окончательнл понял кто такие датасатанисты и на чем они своих моделей дрессируют

"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено Аноним , 03-Ноя-22 06:53 
> голосового чата в мобильном приложении

Это сейчас так называется?


"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено _kp , 03-Ноя-22 10:39 
>> голосового чата в мобильном приложении
> Это сейчас так называется?

Не понял вопрос?
Неужели не видели, во многих играх, что дети играют на смартфонах, есть голосовой канал, для общения.
Качества достойного аудиофилов, в этом случае не требуется, и мп3 64кбит хватило бы за глаза.


"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено Аноним , 02-Ноя-22 21:00 
Почему у предпросмотра видео в ютубе закруглённые углы, а когда переходишь на полный просмотр, углы квадратные?!!! Сделайте закруглённые углы при просмотре видео ужо!

"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено BrainFucker , 02-Ноя-22 21:17 
> по сравнению с форматом MP3

Они специально сравнивают с морально устаревшим кодеком? Было бы интересней посмотреть сравнение с opus, например.


"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено Аноним , 02-Ноя-22 21:52 
Сравнивать надо с flac.

"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено BrainFucker , 02-Ноя-22 22:00 
> Сравнивать надо с flac.

С винилом. Или хотя бы с SACD.


"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено Аноним , 02-Ноя-22 21:40 
>Каузальная модель

Видимо слово "причинность" авторам статьи незнакомо. Как и ретропричинность.


"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено Марк Ц. , 03-Ноя-22 00:40 
Ага, всё время читаю как "казуальная"
Кто выдал этую тупую кальку, запихните её себе обратно

"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено Аноним , 03-Ноя-22 00:32 
> (вычисления, ... производятся на одном ядре CPU)

Не смогли распараллелить - представили как фичу


"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено КО , 03-Ноя-22 07:11 
Эх если б можно было бы в прямой трансляции битрейт выбирать

"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено ryoken , 03-Ноя-22 07:54 
Чёто господа проприетарщики прям по очереди всякие кодеки публикуют. Недавно гугло свой выдавал, теперь эти. Кто следущий, интересно? :)

"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено Аноним , 03-Ноя-22 10:11 
Ага, давайте при наличии speex, iLBC, gsm, g723 и g729, которые прекрасно работают не первое десятилетие на "узких" каналах внедрять очередную AI/ML bloatware фитчу, которая будет впустую жрать cpu на конечных устройствах и корежить звук не по предсказуемым алгоритмам, а по тому как человеческий голос воспринимают разработчики из meta (запрещена в рф).

"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено pavlinux , 03-Ноя-22 14:54 
> методы машинного обучения

Давно метод перебора и частотные выборки стали "машинным обучением"?


"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено Аноним , 03-Ноя-22 19:32 
> Давно

Примерно как только начали в вузах изучать Искусственного Идиота.


"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено Аноним , 04-Ноя-22 23:05 
Не перебора, а градиентного спуска. Понимать надо.

"Facebook опубликовал звуковой кодек EnCodec, использующий ма..."
Отправлено Аноним , 04-Ноя-22 23:57 
Градиентный спуск - одна из самых убогих аналитических схем. Есть даже тривиальные поверхности, на которых градиенты по осям - нули, но стоит повернуть СК на 45 градусов, и сразу появляется этот градиент (речь про седло, например). Такая системокоординаточувствительность в реальных задачах делает много подлянок.