URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID3
Нить номер: 133854
[ Назад ]

Исходное сообщение
"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено opennews , 29-Май-24 15:18

Проект ChatTTS опубликовал модель и связанный с ней инструментарий машинного обучения для синтеза эмоциональной речи. Проект ChatTTS специально оптимизирован для использования в диалоговых системах, таких как интерактивные помощники, и нацелен на воспроизведение свойств естественного эмоционального общения. Поддерживается взаимодействие с несколькими говорящими и построение интерактивного диалога. Корректно отслеживаются и воспроизводятся при синтезе просодические элементы, такие как смех, паузы и междометия...
Подробнее: https://www.opennet.me/opennews/art.shtml?num=61265

Содержание

Опубликована AI-модель ChatTTS для синтеза речи,Аноним, 15:18 , 29-Май-24
Опубликована AI-модель ChatTTS для синтеза речи,Tron is Whistling, 15:24 , 29-Май-24
- Опубликована AI-модель ChatTTS для синтеза речи,Аноним, 15:31 , 29-Май-24
- Опубликована AI-модель ChatTTS для синтеза речи,Женя Вертолёт, 17:54 , 29-Май-24
  - Опубликована AI-модель ChatTTS для синтеза речи,Аноним, 18:35 , 29-Май-24
    - Опубликована AI-модель ChatTTS для синтеза речи,Аноним, 21:06 , 29-Май-24
      - Опубликована AI-модель ChatTTS для синтеза речи,Аноним, 23:57 , 29-Май-24
        
        Опубликована AI-модель ChatTTS для синтеза речи,нейм, 07:57 , 30-Май-24
    - Опубликована AI-модель ChatTTS для синтеза речи,Аноним, 02:10 , 30-Май-24
    - Опубликована AI-модель ChatTTS для синтеза речи,Аноним, 17:08 , 31-Май-24
Опубликована AI-модель ChatTTS для синтеза речи,Tron is Whistling, 15:31 , 29-Май-24
- Опубликована AI-модель ChatTTS для синтеза речи,Аноним, 15:50 , 29-Май-24
  - Опубликована AI-модель ChatTTS для синтеза речи,n00by, 17:50 , 29-Май-24
    - Опубликована AI-модель ChatTTS для синтеза речи,Аноним, 18:29 , 29-Май-24
      - Опубликована AI-модель ChatTTS для синтеза речи,Аноним, 20:36 , 29-Май-24
  - Опубликована AI-модель ChatTTS для синтеза речи,Tron is Whistling, 18:59 , 29-Май-24
    - Опубликована AI-модель ChatTTS для синтеза речи,Аноним, 22:00 , 29-Май-24
      - Опубликована AI-модель ChatTTS для синтеза речи,Tron is Whistling, 22:06 , 29-Май-24
- Опубликована AI-модель ChatTTS для синтеза речи,Женя Вертолёт, 17:52 , 29-Май-24
Опубликована AI-модель ChatTTS для синтеза речи,Аноним, 16:12 , 29-Май-24
- Опубликована AI-модель ChatTTS для синтеза речи,Аноним, 18:46 , 29-Май-24
Опубликована AI-модель ChatTTS для синтеза речи,Аноним, 17:01 , 29-Май-24
Опубликована AI-модель ChatTTS для синтеза речи,Женя Вертолёт, 17:46 , 29-Май-24
Опубликована AI-модель ChatTTS для синтеза речи,Женя Вертолёт, 17:57 , 29-Май-24
- Опубликована AI-модель ChatTTS для синтеза речи,Аноним, 22:58 , 29-Май-24
Опубликована AI-модель ChatTTS для синтеза речи,InuYasha, 18:13 , 29-Май-24
- Опубликована AI-модель ChatTTS для синтеза речи,Аноним, 20:18 , 29-Май-24
- Опубликована AI-модель ChatTTS для синтеза речи,Аноним, 21:26 , 29-Май-24
- Опубликована AI-модель ChatTTS для синтеза речи,nshmyrev, 23:41 , 29-Май-24
  - Опубликована AI-модель ChatTTS для синтеза речи,InuYasha, 11:26 , 30-Май-24
Опубликована AI-модель ChatTTS для синтеза речи,Аноним, 21:16 , 29-Май-24
- Опубликована AI-модель ChatTTS для синтеза речи,Аноним, 22:34 , 29-Май-24
- Опубликована AI-модель ChatTTS для синтеза речи,nshmyrev, 23:39 , 29-Май-24
- Опубликована AI-модель ChatTTS для синтеза речи,Аноним, 16:40 , 30-Май-24
Опубликована AI-модель ChatTTS для синтеза речи,Геймер, 21:23 , 29-Май-24
- Опубликована AI-модель ChatTTS для синтеза речи,Аноним, 21:29 , 29-Май-24
  - Опубликована AI-модель ChatTTS для синтеза речи,Геймер, 21:38 , 29-Май-24
  - Опубликована AI-модель ChatTTS для синтеза речи,Геймер, 21:42 , 29-Май-24
  - Опубликована AI-модель ChatTTS для синтеза речи,_kp, 12:57 , 30-Май-24
    - Опубликована AI-модель ChatTTS для синтеза речи,Аноним, 13:11 , 30-Май-24
      - Опубликована AI-модель ChatTTS для синтеза речи,_kp, 13:44 , 30-Май-24
        
        Опубликована AI-модель ChatTTS для синтеза речи,Аноним, 14:45 , 30-Май-24
        
        Опубликована AI-модель ChatTTS для синтеза речи,_kp, 15:17 , 30-Май-24
        
        Опубликована AI-модель ChatTTS для синтеза речи,Аноним, 10:10 , 31-Май-24
Опубликована AI-модель ChatTTS для синтеза речи,InuYasha, 11:30 , 30-Май-24
Опубликована AI-модель ChatTTS для синтеза речи,rvs2016, 10:23 , 31-Май-24
Опубликована AI-модель ChatTTS для синтеза речи,Аноним, 19:40 , 31-Май-24

Сообщения в этом обсуждении

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено Аноним , 29-Май-24 15:18

А можно синтезировать синтезатор Стивена Хокинга с его помощью?

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено Tron is Whistling , 29-Май-24 15:24

> для защиты от использования модели для совершения мошеннических и криминальных действий при обучении модели использована подстановка высокочастотного шума и задействован максимальный уровень сжатия звука
Короче сама модель даёт на выходе Г, но вы это, слушайте свист с бульканьем, и наслаждайтесь "возможностями" "AI".

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено Аноним , 29-Май-24 15:31

Держу пари, что только в бесплатной версии.

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено Женя Вертолёт , 29-Май-24 17:54

Вообще нездоровая тенденция. Почему кто-то ограничивает одних, ради того, чтобы огородить других? Это примерно из той же оперы, когда государство лезет к тебе на кухню и отнимает ножи, веди ими зарэзать можно.

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено Аноним , 29-Май-24 18:35

> Вообще нездоровая тенденция. Почему кто-то ограничивает одних, ради того, чтобы огородить других?
О, ты не представляешь как я благодарен государству, за то что оно огораживает отбойниками меня от всяких нехороших людей, которые по встречке прутся.
И вокруг остановок столбики от пакрующихся чудаков.
Еще бы что-то с бухими самокатчиками сделать и вообще будет ништяк!

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено Аноним , 29-Май-24 21:06

Вот когда их огородят на столько что ограда вокруг тебя сомкнется - вот тогда-то ты запоешь по другому..

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено Аноним , 29-Май-24 23:57

тех кого государство не отгородило от придурков на встречной уже не запоют вааще никак...
а у него есть шанс проверить твое нелепое предположение...

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено нейм , 30-Май-24 07:57

нет, ну технически, у них сейчас тоже оградка есть и практическм сомкнутая

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено Аноним , 30-Май-24 02:10

Если бы государство не ограничивала тебя от решения своих проблем, то нехороших людей на встречке, паркующихся чудаков, бухих самокатчиков было бы сильно меньше и жили бы они не долго. Но т.к. максимум что ты можешь с ними сделать это смириться, то страдай и плати налоги, может часть из них пойдёт на отбойники и столбики.

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено Аноним , 31-Май-24 17:08

> Еще бы что-то с бухими самокатчиками сделать и вообще будет ништяк!
Можно просто тебя в тюрьму посадить. Заранее. Сразу столько проблем одним махом! И с отбойниками, и с столбиками, и самокаты там не ездят. Красота.

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено Tron is Whistling , 29-Май-24 15:31

И да, сторонники альтернативной теории информации - ну что, отделите шум от плевел в данном вопросе? Если бы было так легко - всё бы было легко и просто.

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено Аноним , 29-Май-24 15:50

А что это ещё за альтернативная теория информации?

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено n00by , 29-Май-24 17:50

Это где T9 называют "ИИ".

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено Аноним , 29-Май-24 18:29

вот только это уже давно и близко не t9, внутри там все очень сложно

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено Аноним , 29-Май-24 20:36

Ничего сложного там и в помине нету...

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено Tron is Whistling , 29-Май-24 18:59

> А что это ещё за альтернативная теория информации?
Это где чтобы шум, превышающий уровень полезного сигнала, отделить, надо набрать чуть-чуть рандомной статистики. Обычно эксперды в безопастности.

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено Аноним , 29-Май-24 22:00

Эксперды в __теории__ безопасности, важно учесть.

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено Tron is Whistling , 29-Май-24 22:06

В практике, думаю, выйдут не хуже ;)

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено Женя Вертолёт , 29-Май-24 17:52

Ты сам то понял что написал?!

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено Аноним , 29-Май-24 16:12

> для русского языка можно рекомендовать фреймворк TTS и модель XTTS-v2, которые кроме синтеза поддерживают клонирование голоса по короткой записи речи, в том числе для синтеза на другом языке
Нет, лучше уж модель TTS от OpenAI. Она хоть и проприетарная, и с американским акцентом говорит, но результат больше похож на русскую речь, чем этот синтезатор, который даже числительные не может нормально озвучить.

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено Аноним , 29-Май-24 18:46

> Нет, лучше уж модель TTS от OpenAI. Она хоть и проприетарная, и с американским
> акцентом говорит, но результат больше похож на русскую речь, чем этот синтезатор,
> который даже числительные не может нормально озвучить.
Если что, "CC BY-NC-ND 4.0 (Creative Commons Attribution-NonCommercial-NoDerivatives 4.0)" не сильно далеко от проприетарных лицензий ушел.

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено Аноним , 29-Май-24 17:01

Microsoft Agent и Ivona как-то же работают без RTX4090.

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено Женя Вертолёт , 29-Май-24 17:46

Где это можно попробовать онлайн?

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено Женя Вертолёт , 29-Май-24 17:57

> Кроме того, для защиты от использования модели для совершения мошеннических и криминальных действий при обучении модели использована подстановка высокочастотного шума и задействован максимальный уровень сжатия звука, используя формат MP3.
А если я хочу использовать это для озвучки видосиков на ютуб? Нафига вообще эта модель тогда нужна, если из неё нельзя извлечь никакого практического толка?

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено Аноним , 29-Май-24 22:58

переводи в wav. выводи синтез на колонки и снимай с них микрофоном

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено InuYasha , 29-Май-24 18:13

> Для генерации 30-секундной записи требуется GPU с 4 ГБ памяти. На GPU NVIDIA GeForce RTX 4090D скорость генерации составляет приблизительно 7 семантических токенов в секунду.
Вот же ж блин! И как я только живу со своим espeak, который кушает КИЛОбайты и о GPU никогда и не слыхал?..

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено Аноним , 29-Май-24 20:18

> Вот же ж блин! И как я только живу со своим espeak,
> который кушает КИЛОбайты и о GPU никогда и не слыхал?..
Еще и не булькает поди как вон то. Экий ты читер!

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено Аноним , 29-Май-24 21:26

Послушал. Поржал. По-моему, даже SAM естественнее звучит.

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено nshmyrev , 29-Май-24 23:41

Попробуйте https://github.com/alphacep/vosk-tts. Качество выше, скорость высокая. На CPU 0.06xRT

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено InuYasha , 30-Май-24 11:26

> Languages Python 99.9%
Нет, спасибо, не надо. Минимизирую зависимости.

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено Аноним , 29-Май-24 21:16

Когда они наконец сделают рилтайм замену голоса. Я давно хочу попробовать под гитару попеть голосом челентано, или бейонсе, или... ну короче не своим отстойным голосом, а заипадым вокалом.

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено Аноним , 29-Май-24 22:34

RVC

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено nshmyrev , 29-Май-24 23:39

Скорее на основе RVC https://github.com/w-okada/voice-changer

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено Аноним , 30-Май-24 16:40

Так голос поменять не проблема, проблема в вокале. Если петь ты не умеешь то меняй хоть на голос шакиры - будешь голосом шакиры, но так же как и раньше хреново петь.

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено Геймер , 29-Май-24 21:23

Юниксвей для нейросеток. Нейросетка должна делать что-то одно и делать это хорошо, и весить не более 50 мегабайт. ChatTTS всё таки ещё не юниксвей. Но может им быть.

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено Аноним , 29-Май-24 21:29

> и весить не более 50 мегабайт.
А лучше 50 килобайт, чтобы прямо в PDP-7 влазила. Вот тогда точно юниксвей будет.

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено Геймер , 29-Май-24 21:38

"640 КБ должно хватить для любых задач"

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено Геймер , 29-Май-24 21:42

Если нейросеть заточена под только одну функцию и при этом может работать вместе с другими нейрсетями, используя универсальный текстовой интерфейс, то её объём не будет стремиться к бесконечности.

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено _kp , 30-Май-24 12:57

Минимальный TTS на Spectrum влазил в 0.7 кБ! Качество соответсвующее, но размер, точнее его отсутствие, все равно впечатляет.

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено Аноним , 30-Май-24 13:11

Предпочитаю впечатляться качеством, а не размером, всё-таки не времена спектрумов.

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено _kp , 30-Май-24 13:44

Про качество логично.
Но, если у ПО совсем непомерные требования к железу, то пахнет плохим проектированием, а то и JS/Pytnon.
Подобное ПО с качеством можно использовать для наговаривания книг, генерации озвучки, но между делом в фоне работать подобному ПО тяжеловато.

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено Аноним , 30-Май-24 14:45

Требования-то, конечно, да, но размер модели меня не напрягает. ≈Гигабайт локально, если будет _нормальный_ голос — это ни о чём.

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено _kp , 30-Май-24 15:17

Проблема не в ги6абайтах, что дешево, в том что для генерации на лету надо ещё и толстую видеокарту, которая не будет выводить видео, а займется синтезом речи.
А в сотни мегабайт уже влазит база с полностью нароворененными фразами, с интонацией и правильным произношением, и далее работает не требуя ресурсов, хоть на игрушечном esp32.
А вот как такая база готовится, то секрет, ибо делать "в лоб" долго. А для её генерации подобный движок уже более чем уместен, с любыми его требованиями.

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено Аноним , 31-Май-24 10:10

Ветка началась с мерянья пиписьками, у кого меньше.
А так-то проблема всех нейросетей сейчас не в объёме, а в вычислительной мощности. Пока не появятся массовые недорогие NPU, для персональных компьютеров это всё малоприменимо. Вот, может, MS с квалкомом пендаля в этом направлении дадут.

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено InuYasha , 30-Май-24 11:30

Кстати, а никто не знает, какой MLG voice использовали Pendulum в своём эпичном Blood Sugar? :)
It's drum and bass - what you gonna do?

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено rvs2016 , 31-Май-24 10:23

Из описания не понял - можно ли эту "модель" использовать где-то у себя и какой пакадж для этого установить надо?

"Опубликована AI-модель ChatTTS для синтеза речи"
Отправлено Аноним , 31-Май-24 19:40

Если почитать сабж в Гите то оно обучалось на китайском и английском языках. Поэтому основное применение его именно там. Хотеть от нее хорошего русского... Ну такое...