Трудности перевода: почему Google Переводчик часто неправильно понимает такие языки, как йоруба

Группа участников Wikimedia в Нигерии, октябрь 2018 года, лицензия Wikimedia Commons CC.BY.2.0.

С тех пор как появился интернет, английский язык занял место «универсального» языка общения в онлайн-дискурсе. По состоянию на февраль 2020 года, согласно данным WebTech3, больше половины веб-сайтов в интернете представлено на английском языке.

Но в интернет стало выходить всё больше людей, говорящих на разных языках, и это привело к лингвистической цифровой революции — у нас появился прямой доступ к переводам на английский с множества языков одним нажатием клавиши.

В последнее время многие технологические компании стараются фиксировать в интернете неанглийские слова, позволяя таким образом перевести в цифровой формат множество языков. Например, Google [анг], Yoruba Names [анг], Masakhane MT [анг] и  ALC [анг] — это те самые компании и стартапы, которые стараются сочетать технологии с языками, отличными от английского.

В конце февраля 2020 года Google объявил, что после 4-летнего перерыва добавит в Google Переводчик ещё пять новых языков, среди которых киньяруанда, уйгурский, татарский, туркменский и ория.

Мужчина озадаченно читает текст в интернете. Фото Оладимеджи Аджегбиле, открытый источник Pexels.

Но бывало ли так, что вы, выбрав опцию перевода, осознавали, что перевод на английский в лучшем случае приемлемый? А в худшем — абсолютно неверный?

Когда речь идёт о таком роде перевода и о работе по расширению доступа, возникает множество противоречий и трудностей.

Twitter насколько возможно предлагает перевод с языка йоруба на английский с помощью Google Переводчика, и обычно результат не самый плохой — возможно, несколько слов будут переведены верно.

Причина таких сложностей состоит в том, что технологические компании обычно собирают свои лингвистические данные [анг] для перевода на английский из интернета. Для некоторых языков эти данные могут подойти, но такие языки, как йоруба и игбо, два основных языка в Нигерии, представляют трудности в связи с тем, что маркировка тонов с помощью диакритических знаков в словах может быть неполной или неточной.

Представитель Google объяснил [анг], почему компании понадобилось 4 года, чтобы добавить ещё пять новых языков:

 Google Translate learns from existing translations found on the web, and when languages don’t have an abundance of web content, it’s been difficult for our system to support them effectively. … However, due to recent advances in our machine learning technology, and active involvement from our Google Translate Community members, we’ve been able to add support for these languages.

Google Переводчик обучается на основе существующих в сети переводов, а когда языки в сети не представлены в полной мере, нашей системе сложно оказывать им эффективную поддержку. …Тем не менее, мы смогли обеспечить поддержку и для этих языков, благодаря последним достижениям в нашей технологии машинного обучения и активному участию нашего сообщества вокруг Google Переводчика.

К тому же у большинства людей не всё так хорошо с орфографией — или написанием слов — в этих языках. В итоге хороший перевод не получается, потому что эти несоответствия не отмечаются как ошибки.

Большая часть машинных переводов неправильно передаёт некоторые слова, особенно те, что несут в себе культурные аспекты. Например, в языке йоруба значения таких слов, как ayaba и obabìnrin,связаны с культурным контекстом. В большинстве случаев машинный перевод передает оба слова как «королева». Тем не менее, с традиционной и культурной точек зрения, разграничение этих двух слов принципиально важно: obabìnrin означает «королева», а ayaba — «жена короля».

Но несмотря на эти трудности перевода, технологии помогли продвинуть африканские языки в цифровом пространстве, стимулируя создание новых слов. Африканские языки стали развиваться с наплывом новых гаджетов, таких как смартфоны и планшеты, поскольку для обозначения этих новых технологических средств и понятий создаются новые слова. Таким образом, этот процесс расширил использование и функционал этих языков.

С появлением новых технологий словарный состав многих африканских языков стал более разнообразным. Например, в языке йоруба есть слова, появившиеся под влиянием технологий, такие как erọ amúlétutù («кондиционер»), erọ Ìbánisọ̀rọ̀ («телефон») и erọ Ìlọta («измельчитель»). Аналогичным образом в языке игбо появились такие слова, как ekwè nti («телефон») и ugbọ̀ àlà («транспортное средство»). Эти народы дали название гаджетам в соответствии с теми функциями, которые они выполняют.

На курсах по телерадиовещанию и рекламе на языке йоруба студенты узнают, что большинство людей называют телевидение erọ Amóhùnmáwòrán. Этот неологизм вызывает много вопросов и споров — некоторые студенты считают, что видеокамеры и регистраторы по своим функциям тоже могут называться erọ amóhùnmáwòrán.

Такие лингвистические задачи в сфере технологий полезны для языков — они пробуждают критическое мышление в плане языкового и технологического прогресса.

В 2019 году Google открыл [анг] свой первый научно-исследовательский центр по ИИ в Аккре, столице Ганы; по данным телеканала CNN, с целью сделать так, чтобы «Google Переводчик точнее распознавал африканские языки». Исследователь Мустафа Сиссе, возглавляющий работу Google над ИИ в Африке, считает, что «континент, где используется свыше 2000 диалектов, заслуживает лучшего обслуживания», как сообщает CNN.

Недавно Mozilla и BMZ [анг] объявили о сотрудничестве в работе над голосовыми технологиями для африканских языков. Благодаря подобным инициативам, в будущем мы сможем больше рассказать об исследовании африканских языков.

Начать обсуждение

Авторы, пожалуйста вход в систему »

Правила

  • Пожалуйста, относитесь к другим с уважением. Комментарии, содержащие ненависть, ругательства или оскорбления не будут опубликованы.