Индийский язык ория добавлен службами перевода Google и Microsoft

Collage of Odia Book Covers. Image via Flickr by Erin Mclaughlin. From the Flickr set Odia Book Covers. CC BY 2.0.

Коллаж обложек книг на языке ория. Фотография Эрин Маклафлин с Flickr. Из набора обложек книг Flickr на языке ория. CC-BY 2.0.

В то время как инициативы с открытым исходным кодом (ОПО) всё ещё в процессе реализации, в этом году Google и Microsoft интегрировали индийский язык ория в свои системы машинного перевода — Google Translate [анг] сделал это в феврале, а Microsoft совсем недавно, 13 августа.

Ория является официальным языком индийского штата Одиш и вторым официальным языком штата Джаркханд. Ория — родной язык для 35 миллионов человек и второй официальный язык ещё для около 4 миллионов. Кроме того, индийское правительство классифицировало его как один из классических языков [анг] страны на основании ряда требований, который включает литературную традицию, насчитывающую более 1500 лет.

Однако в цифровом мире ория используется мало [анг]. Например, на данный момент в архиве Wikipedia, одного из крупнейших хранилищ текстовой информации, содержится всего лишь 15 858 статей [анг] на языке ория. Работа была возобновлена с 2011 года после девятилетнего перерыва [анг]. В то же время Wikipedia хранит около 70 000 статей на языке малаялам, на котором говорят примерно столько же людей, сколько и на языке ория. Раньше контент на ория предлагался онлайн в формате изображений и PDF. Журнал Utkal Prasanga [ория], издаваемый в штате Одиша, продолжает публиковать изображения и PDF. Позднее внедрение юникода [анг] усложнило поиск контента.

Машинный перевод способствует увеличению цифрового присутствия языков, делая контент более удобным для поиска и доступным для людей, не говорящих на нем.

Облачные сервисы Microsoft, включая Microsoft Translator App, Office, Bing Translator App и переводчик Azure Cognitive Services, теперь будут поддерживать переводы с языка ория. Как Microsoft Translator, так и Google Translate (доступные как в браузере, так и в виде приложения) позволяют переводить текст, помещённый непосредственно в поле ввода.

Кроме того, эти платформы также поддерживают перевод текстовых документов, сайтов и диалогов в реальном времени. Мобильное приложение для переводчиков Google предлагает дополнительные функции, в том числе перевод в режиме офлайн, распознавание рукописного текста, сканирование, перевод и чтение текста на изображениях [анг], а также использование голосового ввода для общения на иностранных языках [анг]. Функция Tap to translate [анг] позволяет пользователям переводить текст, набранный непосредственно в любом приложении. Аналогичным образом, приложение синтеза речи от Google позволяет пользователю слушать, как текст произносится на поддерживаемом языке.

Включение языка ория было очень хорошо воспринято правительством штата Одиша. Офис главы правительства объявил в своём аккаунте в Twitter:

Язык ория теперь добавлен Microsoft в его @mstranslator. Теперь это 12-й широко используемый индийский язык. Это облегчит доступ к глобальной информации на ория и будет способствовать межъязыковому взаимодействию.

Также отреагировал департамент электронных устройств и информационных технологий штата:

Переводчик Google, которым пользуются миллионы людей по всему миру, добавил язык ория к списку поддерживаемых. Это важная веха в развитии цифровой грамотности для тех, чей родной язык ория, а также для людей, не знающих этого языка.

Машинный перевод
Машинный перевод используется для перевода текста или речи исходного языка на целевой язык. Формат Google основан на нейронно-машинном переводе, подходе, в котором используется крупная искусственная нейронная сеть, где для обучения используются большие объёмы данных, состоящие из переводов фраз (с исходного языка на переводимый язык [анг]).

С учётом языка ория, Google Translate и Microsoft Translator работают с 11 индийскими языками. В общей сложности Google поддерживает 109 мировых языков, а Microsoft — 73.

Между тем, инициативы с открытым исходным кодом ещё не привели к созданию успешных проектов машинного перевода на ория.

По крайней мере, один проект с открытым исходным кодом, возглавляемый сообществом, находится в разработке: MTEnglish2Odia [анг] обучает механизм машинного перевода, накапливая пары переводов из существующих источников, таких как Wikipedia на языке ория и краудсорсинговые [анг] проекты с участием пользователей Twitter.

Существуют также некоторые исследовательские материалы [анг] и ресурсы [анг], которые могут быть использованы другими организациями для создания систем машинного перевода.

Политика машинного перевода

Технология, используемая Google Translate или Microsoft Translator, сложна с социальной, правовой, этической и юридической точек зрения.

Платформа машинного перевода может принести большую пользу многим людям, в том числе журналистам для получения быстрого доступа к новостям на нескольких языках, или студентам, которые хотят использовать многоязычные ресурсы для обучения.

Аналогичным образом синтез речи может помочь людям с ограниченными возможностями, в частности, людям с различными нарушениями зрения, которые могут таким образом получать доступ к информации и обмениваться ею.

Образовательная, медийная и развлекательная отрасли также извлекают выгоду из возможности переводить большое количество информации за короткое время с помощью Google Translate.

С другой стороны, машинный перевод может также способствовать распространению ложной информации, а синтез речи может сыграть на руку мошенникам, которые втираются в доверие к людям, благодаря возможности общаться с ними на их же языке.

В мире существует более 6000 языков, подтвержденных документально [анг], лишь небольшая часть из них имеет устоявшуюся систему письменности. Только такие языки включены в проекты машинного перевода, такие как Google Translate и Microsoft Translator.

Доступность онлайн-контента, а также количество интернет-пользователей, говорящих на определенном языке, являются основными факторами, которые коммерческие корпорации учитывают при принятии решения о том, какие языки включить в свои системы. Чем больше языков поддерживает компания — тем быстрее она сможет доставлять информацию своим пользователям и тем больше доходов получит от рекламы.

Кроме того, существуют этические вопросы, связанные с авторством и вознаграждением в таких проектах, как Google Translate, который опирается на структуру сообщества участников для рецензирования существующих переводов (что помогает инженерам регулярно оптимизировать приложение).

Несмотря на то, что Google является коммерческой компанией с большим количеством платных продуктов — включая службу облачного перевода [анг] — нет никакого вознаграждения или признания права авторства для отдельных добровольцев и многочисленных общедоступных ресурсов, используемых для машинного обучения.

Использование частных разговоров для оптимизации машинного обучения и искусственного интеллекта также является спорным вопросом в отношении конфиденциальности, но Google работает над анонимизацией таких данных [анг].

В Индии, где создание многоязычного контента буксует из-за недостатка средств, такие продукты, как Google Translate и Microsoft Translator, могут революционизировать бизнес онлайн-контента. Они могут внести свой вклад в такие проекты, как Wikipedia, которая в настоящее время доступна на 23 индийских языках [анг], или StoryWeaver [анг], многоязычная онлайн-платформа детской литературы, которая в значительной степени опирается на волонтёрскую работу.

В связи с быстрым исчезновением многих индийских языков [анг] и дополнительными проблемами — неграмотностью, доступностью цифрового контента — существует потребность в новаторских разработках в области языковых и визуальных технологий. Машинный перевод может стать подходящим инструментом, чтобы избежать исчезновения языков, но Индии ещё предстоит пройти долгий путь в этом отношении.

Примечание: автор работает волонтёром с 2011 года в Oriya Wikipedia [ория] и в проекте MTEnglish2Odia [ория] с момента его запуска.

Перевод: Татьяна Кахович

Начать обсуждение

Авторы, пожалуйста вход в систему »

Правила

  • Пожалуйста, относитесь к другим с уважением. Комментарии, содержащие ненависть, ругательства или оскорбления не будут опубликованы.