
Смартфон с публикацией из соцсетей на языке геэз и автоматическим предупреждением на экране. Один из примеров проблемной модерации контента в африканских письменных системах Фотография: Прайд Чамиза. Используется с разрешения
Автор: Прайд Чамиза
Эта статья — часть серии материалов Global Voices, которые будут выходить в апреле 2026 года под общим названием «Человеческий взгляд на ИИ». Серия посвящена тому, как технологии искусственного интеллекта применяются в странах глобального большинства, как они влияют на отдельные сообщества и какие последствия этот технологический эксперимент может иметь для будущих поколений. Вы можете поддержать проект здесь [анг].
Берекет Тсегай проводил дни, просматривая видео, смысла которых не понимал.
Его наняла модератором контента для TikTok компания Kenya hub, один из ключевых центров ИИ-модерации для всего африканского континента. Тсегай говорит на амхарском, официальном языке Эфиопии. Но в рабочем потоке его ждали ролики со всей Африки — на языках луо [анг], долуо, кикуйю, динка и десятках других языков. Если в кадре не появлялось ничего явно подозрительного и на видео никто не жаловался, Берекет обычно оставлял его. Если жалоб было много — удалял. Позже он ушёл с этой работы и теперь прямо говорит о том, что наблюдал: система пыталась справляться изо всех сил, хотя практически никто не понимал содержания материалов, которые приходилось оценивать.
Язык алгоритма
Джексон Бусоло — кенийский TikTok-креатор, который публикует ролики на суахили, в основном на политические темы. Однажды утром в феврале 2025 года он проснулся и обнаружил, что его аккаунт исчез. Без предупреждения. Без объяснений. Джексон подал апелляцию, и спустя некоторое время страницу восстановили. Почему её удалили и почему вернули — ему так и не сообщили.
Эта история вовсе не исключение из правил. Согласно данным TikTok о соблюдении Правил сообщества за первый квартал 2025 года, на которые ссылалось издание Business Daily Africa, с января по март 2025 года платформа удалила только в одной Кении более 450 тысяч видеороликов и заблокировала свыше 43 тысяч аккаунтов. Во втором квартале число удалённых роликов выросло до 592 тысяч. TikTok объясняет большую часть этих решений работой автоматизированных систем. В комментарии Christian Science Monitor представители TikTok заявили, что платформа сочетает технологические инструменты и человеческую модерацию на многих языках и постоянно расширяет охват. Однако уточнить, какие именно африканские языки поддерживают ИИ-системы модерации компании, платформа отказалась.
Когда система модерации не может обработать тот или иной язык, вероятность того, что она направит контент на дополнительную проверку человеку, резко снижается. Так как система не понимает смысл представленного, она начинает опираться на косвенные сигналы: жалобы пользователей, визуальные признаки или аудиопаттерны языков, которые умеет распознавать.
Мерси Мутеми, исполнительный директор кенийской правозащитной организации Oversight Lab [анг], занимающейся вопросами технологий, сформировала это предельно чётко:
We are talking about an algorithm trained predominantly in English, being trusted to take down harmful content, while a huge percentage of TikTok users in Kenya are using TikTok in their mother tongue.
Мы говорим об алгоритме, обученном преимущественно на английском языке, которому доверяют удалять вредоносный контент, тогда как огромная доля пользователей TikTok в Кении пользуется платформой на своём родном языке.
Проблема не сводится к ложным срабатываниям — когда ошибочно удаляют безобидный контент. Опаснее другая сторона: вредоносные материалы, которые система не понимает, остаются в сети, потому что не запускается проверка. Так, в Эфиопии в Facebook циркулировали ложные сообщения о том, что эфиопские войска якобы захватили эритрейский порт на Красном море. Фактчекеры опровергли информацию [анг], однако ущерб был нанесён. Исследователи вновь и вновь говорят о паттернах: на языке суахили [анг] системы пропускают язык ненависти, модерация [анг] для языков с ограниченными ресурсами, как хауса, сложна, а система, обученная на английском, плохо разбирает публикации на местных языках [анг].
Этнографическое исследование [анг] с участием UX-специалистов из шести африканских стран показало: большие языковые модели, обученные преимущественно на английском, обычно не справляются с африканскими языками. В одном из примеров достаточно было вставить всего одно слово на йоруба в англоязычный запрос, чтобы модель начала выдавать неточные результаты — от частичных ошибочных переводов до ответов, не имеющих отношения к теме. Что происходит, когда той же самой модели поручают решать, нарушает ли публикация правила сообщества?

Тепловая карта Африки, демонстрирующая «пустыню данных»: оранжевым отмечены регионы, представленные в глобальных датасетах для обучения ИИ менее чем на 2 процента, бирюзовым — отдельные зоны покрытия вокруг крупных городов и технологических центров. Фотография: Прайд Чамиза. Публикуется с разрешения автора
Кто расплачивается?
Кто больше страдает из-за систем модерации, неспособных читать африканские языки? Сложнее всего приходится авторам контента, журналистам и обычным пользователям, которые общаются именно на этих языках.
Для создателей контента это означает попытку собрать аудиторию в среде, где алгоритмы реагируют главным образом на англоязычные сигналы, а реальное содержание работы не имеет почти никакого значения. Полин Онянго, другой автор из Кении, столкнулась с этим лично: месяцы публикаций на языке луо почти не дали алгоритмического отклика. Контент оказался фактически невидимым. И это не только проблема справедливости. Система определяет, что будет создано, что получит продвижение и чьи истории в конце концов найдут аудиторию.
Для журналистов и гражданского общества это означает другое: дезинформация на африканских языках распространяется слишком быстро. Платформы с сотнями миллионов пользователей на континенте медленнее реагируют на вредоносный контент, если их системы не способны распознать язык публикации. Фактчекеры, опрошенные изданием Poynter [анг], рассказывали, что в периоды политической напряжённости в Эфиопии им приходилось часами лично отслеживать публикации в Facebook на амхарском языке, хотя такую работу могли бы выполнять механизмы самой платформы.
С точки зрения платформ, у проблемы есть и регуляторное измерение, о котором говорят удивительно мало. Закон ЕС об ИИ (EU AI Act) [анг], вступивший в силу в августе 2024 года, требует, чтобы ИИ-системы не допускали дискриминации, а обучающие данные были репрезентативны для тех групп населения, на которые такие системы влияют. Закон о цифровых услугах (DSA) [анг], действующий с февраля 2024 года, обязывает платформы объяснять пользователям решения по модерации контента. Если система не способна определить, на каком языке написан пост, то не сможет и дать содержательное объяснение, почему этот пост был удалён. Это не абстрактные требования будущего. Они действуют уже сейчас для любой платформы, работающей с европейскими пользователями. А сообщества, говорящие на африканских языках, в Европе многочисленны и активны.
Что делается реально?
Есть эксперты, которые работают в этом направлении, однако им катастрофически не хватает финансов и связей друг с другом.
Исследовательские объединения вроде AfricaNLP [анг] — которые проводят семинары, связанные с крупнейшими конференциями по компьютерной лингвистике, — создают многоязычные датасеты, системы оценки и модели для африканских языков. На воркшопе AfricaNLP 2025 года были представлены следующие проекты: выявление языка ненависти на хауса и игбо, классификация новостей на суахили, а также распознавание речи для языков с крайне ограниченными ресурсами. Научные команды в университетах Претории, Найроби и Аддис-Абебы формируют обучающие корпуса данных для языков, у которых до сих пор почти не было цифровой опоры.
Постепенно подключается коммерческий сектор. Канадская компания Cohere, разрабатывающая большие языковые модели, заключила партнёрство с HausaNLP, чтобы интегрировать датасеты африканских языков в свою многоязычную модель Aya [анг].
Индустрия разметки данных, объём которой в мире оценивается примерно в 2,8 миллиарда долларов США [анг], во многом держится на труде специалистов из Кении, Нигерии и других африканских стран. Именно они размечают данные, на которых затем обучаются ИИ-системы. Но языки этих работников крайне редко оказываются в результатах работы систем, которые они помогают создавать.
В июле 2024 года утвердили Континентальную стратегию Африканского союза в сфере ИИ [анг]. Она закрепляет человекоцентричный подход и называет приоритетом суверенитет данных. В этом документе, как и в последующих национальных стратегиях — включая стратегию Нигерии [анг, pdf, 9,8 МБ], принятую в апреле 2025 года, — языковое разнообразие обозначено как проблема, требующая решения. Но стратегические документы сами по себе не становятся моделями. Они не ликвидируют разрыв между тем, на что способны существующие системы, и тем, чего требуют языки континента.
Решаемая проблема, которую никто не решает
Языковой разрыв в системах ИИ-модерации контента — давно известная проблема с понятной причиной: экономика разработки ИИ исторически благоприятствовала языкам, для которых существует большой массив цифровых текстов. У большинства африканских языков таких ресурсов крайне мало. Доминирует английский. Частично представлены французский, китайский и арабский. Всё остальное остаётся на периферии.
Однако сейчас обстоятельства изменились: растущее внешнее регуляторное давление впервые может действительно переменить ситуацию. Требования Закона ЕС об ИИ, касающиеся дискриминации, распространяются и на обучающие данные. Если система обучена на информации, не имеющей отношения к сообществу, которому она предназначена служить, компании-операторы нарушают закон. DSA требует от платформ объяснять все свои решения — в том числе решения, принятые системами, которые не поняли содержание публикации, а лишь предположили его смысл.
Конечно, автоматически ничего не изменится. Но впервые появляются финансовые последствия за игнорирование проблемы. Платформам, которые воспринимали поддержку африканских языков как желательную опцию, а не базовое требование, будет всё труднее придерживаться такой позиции, если регуляторы потребуют раздельные данные об эффективности систем по языкам и сообществам.
Есть и другой аргумент — не связанный с регулированием. Африка остаётся одним из самых быстрорастущих регионов [анг] по использованию социальных сетей. Платформы, которые хотят развиваться на континенте в ближайшее десятилетие, должны реально работать для людей, которые там живут. Система модерации, рассматривающая суахили, йоруба или амхарский как пограничные исключения, создавалась не для африканской аудитории. Это система, разработанная для кого-то другого и просто внедрённая в Африке.
Важно открыто говорить об этом разрыве. Не потому, что достаточно придумать название проблемы, а потому, что первый шаг к её решению — признать, что перед нами именно проблема, а не приемлемый компромисс.
Редакционное примечание: автор занимается разработкой технологий модерации контента. Высказанные в статье оценки и выводы принадлежат ему лично и основаны на открытых исследованиях.
Прайд Чамиза — исследователь в области ИИ и основатель VidSentry, платформы, создающей инструменты контекстной видеомодерации контента на африканских языках. Он живёт в Кейптауне, лауреат списка GradStar Top 100.








