The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

Facebook опубликовал модель для машинного перевода, поддерживающую 200 языков

07.07.2022 14:25

Компания Facebook (запрещена в РФ) опубликовала наработки проекта NLLB (No Language Left Behind), нацеленного на создание универсальной модели машинного обучения для прямого перевода текста с одного языка на другой, минуя промежуточный перевод на английский язык. Предложенная модель охватывает более 200 языков, включая редкие языки африканских и австралийских народов. Конечной целью проекта является предоставление средств для общения любых людей, независимо от языка на котором они говорят.

Модель доступна под лицензией Creative Commons BY-NC 4.0, разрешающей копирование, распространение, задействование в своих проектах и создание производных работ, но при условии указания авторства, сохранения лицензии и использования только для некоммерческих целей. Инструментарий для работы с моделями поставляется под лицензией MIT. Для стимулирования разработок с использованием модели NLLB решено выделить 200 тысяч долларов на предоставления грантов исследователям.

Для упрощения создания проектов, использующих предложенную модель, дополнительно открыт код приложений, использовавшихся для тестирования и оценки качества моделей (FLORES-200, NLLB-MD, Toxicity-200), код для тренировки моделей и кодировщики на базе библиотеки LASER3 (Language-Agnostic SEntence Representation). Финальная модель предложена в двух вариантах - полном и сокращённом. Сокращённый вариант требует меньше ресурсов и подходит для тестирования и использования в исследовательских проектах.

В отличие от других систем перевода на базе систем машинного обучения, решение от Facebook примечательно тем, что для всех 200 языков предложена одна общая модель, охватывающая все языки и не требующая использования отдельных моделей для каждого языка. Перевод осуществляется напрямую из исходного в целевой язык, без промежуточного перевода на английский язык. Для создания универсальных систем перевода дополнительно предложена LID-модель (Language IDentification), позволяющая определить используемый язык. Т.е. система может автоматически распознать на каком языке предоставлена информация и перевести на язык пользователя.

Поддерживается перевод в любом направлении, между любыми из поддерживаемых 200 языков. Для подтверждения качества перевода между любыми языками подготовлен эталонный проверочный набор FLORES-200, который показал, что модель NLLB-200 по уровню качества перевода в среднем на 44% превосходит ранее предлагаемые исследовательские системы на основе машинного обучения при использовании метрик BLEU, сравнивающих машинный перевод с эталонным человеческим переводом. Для редких африканских языков и индийских диалектов превосходство в качестве достигает 70%. Наглядно качество перевода можно оценить на специально подготовленном демонстрационном сайте.

  1. Главная ссылка к новости (https://ai.facebook.com/blog/n...)
  2. OpenNews: Компания Mozilla опубликовала собственную систему машинного перевода
  3. OpenNews: Реализация системы машинного обучения для синтеза изображений по текстовому описанию
  4. OpenNews: Amazon опубликовал набор данных для понимания речи на 51 языке
  5. OpenNews: Выпуск OpenBot 0.5, платформы для создания роботов на базе смартфона
  6. OpenNews: DeepMind представил систему машинного обучения для генерации кода по текстовому описанию задачи
Лицензия: CC BY 3.0
Наводку на новость прислал Artem S. Tashkinov
Короткая ссылка: https://opennet.ru/57466-facebook
Ключевые слова: facebook, ai, translate
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (35) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.2, Аноним (2), 15:07, 07/07/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +3 +/
    Переводит так же криво, как в fb?
     
     
  • 2.8, Аноним (8), 15:32, 07/07/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Это более адекватно, чем то, что делают текущие реализации. Сначала они переводят в не-язык, после чего пытаются получить из не-текста на не-языке что-нибудь осмысленное.
     
     
  • 3.45, Аноним (45), 10:47, 08/07/2022 [^] [^^] [^^^] [ответить]  
  • +/
    > получить из не-текста на не-языке что-нибудь осмысленное.

    ... что-нибудь не-осмысленное.

     
     
  • 4.46, pda (ok), 11:01, 08/07/2022 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Прямо Дюной пахнуло. Не-корабль, не-комната... :)
     
  • 3.49, vasya (??), 11:30, 08/07/2022 [^] [^^] [^^^] [ответить]  
  • +/
    > они переводят в не-язык

    не-язык = векторное представление, которое содержит смысл слов в некоторых контекстах из исходного языка. Я смысл этот очень похож для большинства языков, т.к. все они про одно и тоже.

    >  получить из не-текста на не-языке что-нибудь осмысленное.

    поэтому и получают.

     
     
  • 4.50, n00by (ok), 12:04, 08/07/2022 [^] [^^] [^^^] [ответить]  
  • +/
    > смысл этот очень похож для большинства языков, т.к.
    > все они про одно и тоже.

    Лакуна (лингвистика)

    Лаку́на (в широком смысле) — национально-специфический элемент культуры, нашедший соответствующее отражение в языке и речи носителей этой культуры, который либо полностью не понимается, либо недопонимается носителями иной лингвокультуры в процессе коммуникации.

    Лаку́на (в узком смысле, т. н. языковая лакуна) — отсутствие в лексической системе языка слова для обозначения того или иного понятия.

     

  • 1.10, Аноним (10), 15:39, 07/07/2022 Скрыто ботом-модератором [﹢﹢﹢] [ · · · ]     [к модератору]
  • –2 +/
     
  • 1.13, an (??), 16:05, 07/07/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +2 +/
    Это не может не радовать, а платным сервисам на подобие платного api яндекс переводчика, придется пересмотреть свою коммерческую модель.
     
     
  • 2.18, Аноним12345 (?), 17:11, 07/07/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Как вы собираетесь реализовать предложенную модель перевода ?
    Ее же можно достичь лишь на мощностях , доступных либо яндексу, либо гуглу, либо фейсбуку
    Будете строить собственную песочницу ?
    Жизни не хватит
     
     
  • 3.19, Вы забыли заполнить поле Name (?), 17:20, 07/07/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Мощности можно арендовать
     
     
  • 4.48, Аноним (48), 11:10, 08/07/2022 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Аренда в три раза дороже собственного датацентра.  
     
     
  • 5.63, Вы забыли заполнить поле Name (?), 00:06, 09/07/2022 [^] [^^] [^^^] [ответить]  
  • +/
    > Аренда в три раза дороже собственного датацентра.

    Пруфлинки или бред.

     
  • 3.37, Аноним (37), 23:30, 07/07/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Мозилле-то хватило.
     

  • 1.16, Аноним12345 (?), 17:09, 07/07/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Кажется компания Facebook была переименована в мету ...
     
     
  • 2.21, Аноним (21), 17:34, 07/07/2022 [^] [^^] [^^^] [ответить]  
  • +/
    И запрещена к упоминанию как зловредная?😶
     
     
  • 3.53, Аноним (-), 13:21, 08/07/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Экстремистская. Опеннет скатывается в экстремизм на глазах.
     
     
  • 4.55, Аноним (55), 13:29, 08/07/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Помянем.
     
  • 2.64, torvn77 (ok), 12:04, 09/07/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Вполне возможно что юрлицо Мордокнига осталась, а Мета это просто правовая прокладка для регистрации названия и товарных знаков.
     

  • 1.23, Аноним12345 (?), 17:40, 07/07/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Хорошо бы было еще и вот эту ссылку опубликовать:
    https://github.com/facebookresearch/fairseq/tree/nllb/
     
     
  • 2.25, Аноним (25), 18:11, 07/07/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Она и так есть, первая ссылка во втором параграфе, на слове "доступна".
     

  • 1.26, Аноним (26), 18:19, 07/07/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    Переводит очень неплохо, но, жаль, нельзя проверить на случайном тексте, чтобы сравнить, например, с DeepL, который для меня сейчас эталон AI перевода и за которым часто вообще ничего править не надо, ибо на выходе идеал.

    // b.

     
     
  • 2.34, Аноним (25), 20:59, 07/07/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    При переводе между русским и английским последнее время вперёд вырвался Yandex Translate. Раньше перевод был посредственным, но после запуска нового кластера теперь переводит заметно лучше DeepL и Google Translate, особенно если в тексте есть термины, зависящие от контекста. Google хорош при большом числе ошибок/опечаток в тексте, например, ему можно скормить текст на английском почти без гласных букв и он его нормально переведёт.
     
     
  • 3.36, Аноним (36), 22:46, 07/07/2022 [^] [^^] [^^^] [ответить]  
  • –2 +/
    Это реклама?

    // b.

     
     
  • 4.44, Брат Анон (ok), 09:17, 08/07/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Сейчас сравнил перевод и таки да -- тындекс немного приятнее переводит.

    Но есть и странности:

    Яндекс:
    > ..., а затем выполнить, либо выполнив helloкоманду, либо дважды щелкнув значок

    Гугель:
    > .. .затем выполнить либо путем запуска helloкоманды, либо двойным щелчком по значку

    Всё-таки два раза щёлкнуть и двойной щелчок -- разница есть.

     
     
  • 5.51, n00by (ok), 12:09, 08/07/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Кто привык мыслить даблкликами, тому ближе "двойной щелчок". Дважды щёлкнуть - это понятно каждому.
     
     
  • 6.66, Брат Анон (ok), 10:14, 11/07/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > Кто привык мыслить даблкликами, тому ближе "двойной щелчок". Дважды щёлкнуть - это
    > понятно каждому.

    Да понятно, что все прекрасно всё поймут. Но "дважды щёлкнуть", всё-такие менее точно по отношению к "двойной щёлк", и что совсем хорошо -- "двойной клик". В такой форме месту интерпретации не остаётся.

     
     
  • 7.67, n00by (ok), 11:55, 11/07/2022 [^] [^^] [^^^] [ответить]  
  • +/
    клик

    Существительное, неодушевлённое, мужской род, 2-е склонение (тип склонения 3a по классификации А. А. Зализняка).

    Корень: -клик-.
    Произношение

        МФА: ед. ч. [klʲik], мн. ч. [ˈklʲikʲɪ]

    Семантические свойства
    Значение

        поэт. крик, зов, возглас ◆ Народ, восторгом упоенный, // Толпится с кликами кругом, // И князя радость оживила. А. С. Пушкин, «Руслан и Людмила», 1817–1820 гг. [Викитека]

    Синонимы

        клич, зов, возглас, оклик

    Антонимы
    молчание

     

  • 1.35, Аноним (-), 22:23, 07/07/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +4 +/
    Что только не делает для соберания конд. инфы.
     
  • 1.38, incognito (??), 04:21, 08/07/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Ещеб контейнер или виртуалку разместили чтоб в оффлайне поиграться.
     
  • 1.56, zog (??), 14:36, 08/07/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    А можно без этих глупых вставок о том, что запрещено в РФ? Я нахожусь на техническом ресурсе, а не на политическом.
     
     
  • 2.58, Быдлоюзер (?), 15:45, 08/07/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Тут что-нибудь про товарища майора
     
  • 2.61, Аноним (25), 17:33, 08/07/2022 [^] [^^] [^^^] [ответить]  
  • +/
    За отсутствия подобного упоминания в РФ штрафуют. Около 30 тыс. рублей придётся выложить, если не упомянуть о запрете.

     
  • 2.65, ыы (?), 08:42, 11/07/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Есть люди которые думают что они не занимаются политикой...
    Проблема в том что политика при этом все равно занимается ими..
    Ей на мнение несознательных все равно...
     

  • 1.62, Skullnet (ok), 17:45, 08/07/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Лучше deepl пока ничего нет)
     
     
  • 2.68, Аноним (68), 22:12, 12/07/2022 [^] [^^] [^^^] [ответить]  
  • +/
    https://libretranslate.de/
     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2024 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру