Потери при переводе: как ИИ-модели влияют на сообщества носителей редких языков

Speech bubbles in many non-ENglish languages. Photo by Zhendong Wang on Unsplash.

Фотография: Чжэньдун Ван. Свободное использование по лицензиии Unsplash

[Все ссылки ведут на страницы на английском языке, если не указано иное.]

Эта статья — часть серии материалов Global Voices, которые будут выходить в апреле 2026 года под общим названием «Человеческий взгляд на ИИ». Серия посвящена тому, как технологии искусственного интеллекта применяются в странах глобального большинства, как они влияют на отдельные сообщества и какие последствия этот технологический эксперимент может иметь для будущих поколений. Вы можете поддержать проект здесь.

Компании, которые разрабатывают продукты на базе искусственного интеллекта (ИИ), преподносят их как инструмент, дающий пользователям дополнительные преимущества и позволяющий идти в ногу со временем. Однако в действительности бесчисленное количество потенциальных клиентов за пределами Глобального Севера остаются за бортом.

В статье, опубликованной в 2025 году Институтом человекоориентированного ИИ Стэнфордского университета (HAI), отмечается, что многие популярные большие языковые модели (LLM) зачастую показывают слабые результаты при работе с языками, отличными от английского. Исследователи обратили внимание на то, что доступные широкой публике языковые модели, включая разработки при участии таких компаний, как Google и Meta, генерируют ответы, которые не подходят подавляющей части пользователей глобального большинства. В результате этим людям приходится довольствоваться предвзятыми и ненадежными ИИ-инструментами, что подтверждает мнение о том, что ведущие компании считают потребности большинства второстепенными.

Носители редких языков — тех, для которых недостаточно данных, чтобы качественно обучать ИИ-системы — фактически не могут воспользоваться преимуществами этой инновации. Преобладание англоязычного контента в интернете значительно повлияло на качество ИИ-инструментов, представленных сегодня на рынке, что, в свою очередь, создало барьер доступа для людей, интересующихся искусственным интеллектом, но не владеющих английским.

ИИ-приложения также выдают результаты, отражающие нормы и ценности лишь узкой группы представителей международного сообщества. Попытки решить эту проблему путем создания языковых данных для редких языков порой приносили больше вреда, чем пользы. Если ситуация не изменится, сообщества, не говорящие по-английски, будут и дальше терять позиции в гонке ИИ.

Укрепление цифрового неравенства

Недостаток данных на редких языках — это проблема не только для инженеров-разработчиков. Обычные люди, составляющие глобальное большинство, лишаются множества преимуществ ИИ-технологии из-за этого очевидного пробела. Газета The New York Times заострила внимание на том, что концентрация индустрии ИИ в более богатых странах, например в США, усугубила эту проблему. Существующая инфраструктура в центрах, подобных Кремниевой долине, в сочетании с обширными массивами данных, которыми располагают компании в подобных регионах, склонила чашу весов в пользу стран Глобального Севера. В результате миллионы людей, говорящих на таких языках, как курдский и суахили, вытесняют на периферию, вместе с крупными рынками, которые они представляют. Носители языков, отличных от английского, обладают меньшими ресурсами и могут ещё долго оставаться вне поля зрения компаний, ориентированных на ИИ.

Последствия этого языкового перекоса весьма серьёзны. В то время как жители англоязычного мира привыкли использовать ИИ для решения самых разных задач, носители редких языков лишены такой возможности. Как отмечает Wired, пользователи из стран глобального большинства могут обнаружить, что обращение за помощью к одной из ИИ-моделей, например ChatGPT, даёт ответы, которые в лучшем случае бесполезны, а в худшем — бессмысленны.

Если попробовать составить электронное письмо на тамильском языке, то, скорее всего, на выходе вы получите путаный и полный ошибок черновик на английском. В результате возникает мнение, что несовершенные ИИ-инструменты приносят больше проблем, чем пользы. По мере того как искусственный интеллект всё глубже проникает во все сферы жизни и профессии, пользователи, которые не знают английского, рискуют оказаться вынужденными действовать в условиях всё более замкнутой и моноязычной экономики.

Вытеснение культурного многообразия

Предвзятость ИИ в пользу английского языка сказывается на сообществах редких языков не только в экономическом плане: мировоззрение, отражающееся в ответах, генерируемых широко используемыми ИИ-инструментами, отражает видение англоязычных жителей стран Глобального Севера. Издание The Atlantic обратило внимание на эту закономерность, отмечая, что убеждения обществ из стран с высоким уровнем ресурсов начинают восприниматься как универсальные и общечеловеческие.

Неанглоцентричные точки зрения вытесняются на периферию, потому что минимально представлены в данных, на которых обучается ИИ. Представители многих сообществ оказываются вне поля зрения для крупных разработчиков ИИ, несмотря на обещания, что эта технология станет благом для всего человечества. И хотя инструменты постоянно совершенствуются, установки, отражённые в информационных результатах, скорее всего, останутся прежними. В сфере ИИ есть попытки исправить этот дисбаланс с помощью создания большего количества цифровых материалов на редких языках, однако результаты неутешительны.

Журнал MIT Technology Review проанализировал качество значительной части контента, который собирается из открытых источников и используется для улучшения больших языковых моделей. Выяснилось, что многие материалы изобилуют ошибками. Это связано с тем, что некоторые сайты, используемые для усиления многоязычия ИИ, сами по себе содержат массу ляпов, допущенных при машинном переводе. Порой за созданием таких сайтов стоят люди, искренне желающие сократить языковой разрыв, просто многим из них не хватает опыта, необходимого для оценки точности своей работы. Такой контент остаётся в сети без исправлений, превращаясь в данные, которые ИИ использует для улучшения языковой «беглости». Увы, ущерб уже нанесён.

Изменение правил игры

Компании, занимающиеся искусственным интеллектом в странах Глобального Севера, работают на полную мощность, стремясь завоевать господствующее положение в этой прибыльной отрасли, несмотря на указанные выше опасения. Стоит замедлиться и подумать о глобальных последствиях такой работы. Например, разработчики продуктов, по-видимому, игнорируют носителей редких языков, что ставит последних в невыгодное положение по сравнению с англоязычными пользователями. Отраслевые исследования указывают на формирование культурной иерархии с англоязычным миром во главе. Демонтаж этой зарождающейся системы требует осмысленного и целенаправленного подхода. В совокупности эти тенденции подчёркивают, что принцип «действуй быстро, ломай преграды», который на протяжении многих лет доминировал в технологическом секторе, по-прежнему работает в эпоху ИИ. Как и раньше, так и сейчас последствия этого будут испытывать на себе неанглоязычные сообщества.

Однако ситуацию можно изменить. Начать следует с сотрудничества с сообществами, которые оказались на обочине гонки по внедрению ИИ. Крупные разработчики должны стремиться к партнёрству с сообществами носителей редких языков, чтобы устранить растущее неравенство. Вовлечение этих групп населения в процесс создания таких технологий, как LLM, наряду с проверкой результатов на точность и достоверность, должно стать приоритетной задачей для компаний, стремящихся изменить ситуацию к лучшему. Кроме того, корпорации могли бы объединить усилия с лидерами ИИ на местном уровне для создания инструментов, более адаптированных к потребностям носителей редких языков. Только такой культурно чувствительный подход позволит развивать и совершенствовать ИИ таким образом, чтобы он приносил пользу многим, а не только избранному меньшинству.

Начать обсуждение

Авторы, пожалуйста вход в систему »

Правила

  • Пожалуйста, относитесь к другим с уважением. Комментарии, содержащие ненависть, ругательства или оскорбления не будут опубликованы.