[Все ссылки ведут на страницы на английском языке, если не указано иное].
Добро пожаловать в пилотный выпуск рассылки ЦифроГлот — коллективного проекта, в котором мы раз в две недели будем рассказывать о том, как люди, говорящие на коренных и исчезающих языках, а также представители национальных меньшинств, с помощью технологий развивают присутствие своих языков в интернете и заодно увеличивают языковое разнообразие в сети. Каждый выпуск рассылки будет создаваться несколькими волонтерами, имена которых мы будем указывать в конце статьи.
Это наш первый выпуск, и, вероятно, следующие несколько месяцев формат и содержание «ЦифроГлота» будут немного меняться. Мы всегда рады отзывам читателей и предложениям о том, какие темы осветить в следующих выпусках. Пишите нам через форму обратной связи на странице Rising Voices.
Contents
С началом 2019 года Международный год языков коренных народов считается открытым. В декабре 2016 года Генеральная Ассамблея ООН объявила, что 2019 год будет посвящен кампании по привлечению внимания к проблемам коренных языков. Кампания пройдет под эгидой ЮНЕСКО и сфокусируется на пяти областях, включая укрепление и развитие международного сотрудничества. Ряд занимающихся языками организаций объединится, чтобы освещать кампанию в социальных медиа под хэштегом #IYIL2019. Одним из направлений кампании стал объявленный ЮНЕСКО поиск научно-исследовательских работ, в том числе на тему «Технологии, интернет-активизм и искусственный интеллект (напр. языковые технологии)».
Одним из последствий европейской колонизации в современной Африке стала разрозненность систем письма местных языков. Большинство африканских языков уже несколько десятилетий используют латиницу, тем не менее языки сильно отличаются специальными символами алфавита, или «расширенной» латиницей. Порой система написания варьировалась даже внутри одной страны. Дон Осборн в своей серии эссе [части 1, 2, 3] вспоминает четыре десятилетия стандартизации африканского языка и объясняет, как поспешные решения в орфографии отразились на сегодняшних цифровых медиа.
Осборн предполагает, что вызов, бросаемый расширенной латиницей, — необходимость использовать дополнительный интерфейс для ввода специальных символов алфавита своего языка — тормозит развитие Википедии на некоторых африканских языках. В его анализе отмечается, что африканоязычные разделы Википедии, «написанные расширенной латиницей, в среднем содержат в три раза меньше статей», чем разделы, написанные на более простой латинице. И хотя Осборн признает, что это лишь предварительный подсчет, его анализ выявляет некоторые трудности создания цифровой среды на местных языках.
Айокунле Одедере — участник сообщества нигерийской Википедии и координатор центра Викимедии в городе Ибадан, Нигерия, организует и мобилизует такие кампании, как например, недавний проект AfroCine. Работая в Википедии, Одедере заметил, что многие редакторы, как новички, так и опытные, испытывают трудности при написании обязательных диакритических знаков [рус] в статьях Википедии на национальных языках — таких как йоруба [рус], хауса [рус] и игбо [рус].
Гавайский язык имеет долгую историю письменности — с XIX по начало XX века на нем было издано больше 125 000 газетных страниц. К сожалению, большинство этих текстов было написано с использованием орфографии, разработанной миссионерами, которая, в отличие от современной, не в полной мере отражает фонетику языка. Такие тексты, в итоге, тяжело воспринимаются современным читателем и не могут быть использованы для обучения систем обработки естественного языка. В статье исследователей из Оксфордского университета и компании Google Deep Mind описана система, объединяющая так называемый «конечный преобразователь», хорошо известную в области технологию, с глубинным обучением для создания системы автоматической модернизации гавайских текстов. Этот подход, возможно, удастся использовать и для множества других языков, подвергшихся орфографическим изменениям или стандартизации.
Министр валлийского языка правительства Уэльса Элюнед Морган заявила о том, как важно, чтобы умные колонки и другие устройства, управляемые голосом, как, например, Siri и Alexa, были адаптированы под распознавание валлийского языка. Эта задача является частью программы правительства Уэльса по развитию и поддержанию валлийского языка и технологий, запущенной 23 октября 2018 года.
Запуск такой программы говорит о высокой роли технологий в повседневной жизни, а также о том, как важно, чтобы валлийцы могли использовать родной язык при взаимодействии с техникой: «Мы хотим, чтобы люди могли свободно говорить как на валлийском, так и на английском при использовании технологий дома, в школе, на работе или в поездках». Программа по развитию и поддержанию валлийского языка и технологий является частью правительственного плана по достижению одного миллиона носителей валлийского языка к 2050 году и предполагает обучение искусственного интеллекта распознаванию разговорного валлийского, а также улучшение технологии машинного перевода.
Команда исследователей из Рочестерского технологического института в США разрабатывает технологию распознавания голоса, чтобы использовать её в работе по документированию и транскрибированию языка сенека. Это исчезающий язык американского коренного населения, на котором говорит менее 50 человек, что требует его скорейшего документирования и сохранения. Так как процесс записи и ручного транскрибирования речи требует значительного вложения денег и времени, исследователи надеются разработать технологию распознавания голоса, которая поможет им в данной работе.
Распознавание речи — это технологический процесс, при котором звук человеческого голоса автоматически преобразуется в письменную форму. Создать систему распознавания речи для языков с малым количеством данных довольно сложно, так как такие обучение таких систем распознанию языка требует большого объема информации. За это передовое исследование команда получила от американского Национального научного фонда 181 682 доллара за четыре года работы.