antony_w (antony_w) wrote,
antony_w
antony_w

Categories:

В Facebook обучили ИИ прямому переводу на 100 языков без посредников



Из 4450 возможных языковых комбинаций модель М2М-100 напрямую переводит 1100, что выгодно отличает ее от прошлых многоязыковых моделей, которые по большей части использовали английский язык как промежуточный. К примеру, для перевода с китайского на французский обычно требовалось сначала перевести текст на английский, а потом на французский, что повышало вероятность ошибок.

Компания Facebook открыла доступ к новой языковой модели М2М-100, для обучения которой потребовалось 7,5 млрд пар предложений. Для того чтобы собрать такой объем данных, разработчики воспользовались инструментами автоматизации: собрали миллиарды предложений из сети и пропустили их через еще одну языковую модель FastText, которая определила язык. Затем программа LASER 2.0 при помощи обучения без учителя — разновидности машинного обучения, не требующей разметки данных вручную, — сопоставила предложения по смыслу.

Разработчики отобрали комбинации языков, которые показались им наиболее востребованными. Они сгруппировали языки по их лингвистической, географической и культурной близости, предположив, что жители одного региона будут общаться между собой чаще — как, например, жители Индии, которые говорят на бенгали, хинди, тамильском и урду, пишет Technology Review.

Перевод на некоторые языки — в частности, те, на которых говорят в Африке или Юго-Восточной Азии — не всегда оказывается точным. Ведущий исследователь проекта Энджела Фань объясняет это тем, что в сети недостаточно данных для обучения модели.

Facebook попросил группу носителей языка оценить качество перевода между 20 языковыми парами, ни одна из которых не связана с английским. Эксперты оценили достоверность перевода относительно высоко, но отметили, что M2M-100 имеет тенденцию создавать дословные переводы со сленгом, при котором смысл текста теряется. Они также обнаружили, что модель подвержена грамматическим проблемам, таким как пропущенная запятая в предложении, что может привести к неправильной интерпретации.

«Для многих языков нам необходимы существенные улучшения, прежде чем можно будет надежно получить разумный перевод, — признали исследователи Facebook в статье, подробно описывающей M2M-100. — Примеры включают африканские языки, такие как коса и зулу, европейские языки, такие как каталанский и бретонский, и языки Юго-Восточной Азии, такие как илоко и кебуано. Для многих из них даже одноязычные ресурсы в интернете ограничены, что сильно влияет на количество и качество обучающих данных».

У Facebook пока нет планов по использованию этой модели в своих продуктах. М2М-100 предназначена исключительно для исследовательских целей, заявила Фань. Возможно, в будущем она поможет повысить качество коммуникации пользователей и модерацию контента соцсети.

Tags: искусственный интеллект, язык
Subscribe

Posts from This Journal “искусственный интеллект” Tag

promo antony_w august 17, 2014 11:48 18
Buy for 10 tokens
Есть блог, в котором написано много постов про роботов: ссылка И там есть несколько статей о замене рабочих мест человека роботами: Уже к 2018 году роботы отберут у человека часть профессий Рабский труд без зарплаты Армия роботов: зачем она нужна обильной людьми Поднебесной и кому может…
  • Post a new comment

    Error

    default userpic

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 1 comment