Представляем «ЦифроГлот» — новостную рассылку о языках и технологиях

Эльмо Баутиста со своим ныне покойным отцом Эспириту Баутистой записывают на аудио слова на одном из языков Перу — янеша, во время семинара, организованного Институтом живых языков (Living Tongues Institute). Фото Эдди Авилы, используется с разрешения.

[Все ссылки ведут на страницы на английском языке, если не указано иное].

Добро пожаловать в пилотный выпуск рассылки ЦифроГлот — коллективного проекта, в котором мы раз в две недели будем рассказывать о том, как люди, говорящие на коренных и исчезающих языках, а также представители национальных меньшинств, с помощью технологий развивают присутствие своих языков в интернете и заодно увеличивают языковое разнообразие в сети. Каждый выпуск рассылки будет создаваться несколькими волонтерами, имена которых мы будем указывать в конце статьи.

Это наш первый выпуск, и, вероятно, следующие несколько месяцев формат и содержание «ЦифроГлота» будут немного меняться. Мы всегда рады отзывам читателей и предложениям о том, какие темы осветить в следующих выпусках. Пишите нам через форму обратной связи на странице Rising Voices.

Технологии и интернет-активизм в списке тем Международного года языков коренных народов

С началом 2019 года Международный год языков коренных народов считается открытым. В декабре 2016 года Генеральная Ассамблея ООН объявила, что 2019 год будет посвящен кампании по привлечению внимания к проблемам коренных языков. Кампания пройдет под эгидой ЮНЕСКО и сфокусируется на пяти областях, включая укрепление и развитие международного сотрудничества. Ряд занимающихся языками организаций объединится, чтобы освещать кампанию в социальных медиа под хэштегом #IYIL2019. Одним из направлений кампании стал объявленный ЮНЕСКО поиск научно-исследовательских работ, в том числе на тему «Технологии, интернет-активизм и искусственный интеллект (напр. языковые технологии)».

«Расширенная» латиница замедляет развитие Википедии на африканских языках?

Одним из последствий европейской колонизации в современной Африке стала разрозненность систем письма местных языков. Большинство африканских языков уже несколько десятилетий используют латиницу, тем не менее языки сильно отличаются специальными символами алфавита, или «расширенной» латиницей. Порой система написания варьировалась даже внутри одной страны. Дон Осборн в своей серии эссе [части 1, 2, 3] вспоминает четыре десятилетия стандартизации африканского языка и объясняет, как поспешные решения в орфографии отразились на сегодняшних цифровых медиа.

Осборн предполагает, что вызов, бросаемый расширенной латиницей, — необходимость использовать дополнительный интерфейс для ввода специальных символов алфавита своего языка — тормозит развитие Википедии на некоторых африканских языках. В его анализе отмечается, что африканоязычные разделы Википедии, «написанные расширенной латиницей, в среднем содержат в три раза меньше статей», чем разделы, написанные на более простой латинице. И хотя Осборн признает, что это лишь предварительный подсчет, его анализ выявляет некоторые трудности создания цифровой среды на местных языках.

Википедия добавляет три западно-африканских языка в Универсальный переключатель языков

Айокунле Одедере — участник сообщества нигерийской Википедии и координатор центра Викимедии в городе Ибадан, Нигерия, организует и мобилизует такие кампании, как например, недавний проект AfroCine. Работая в Википедии, Одедере заметил, что многие редакторы, как новички, так и опытные, испытывают трудности при написании обязательных диакритических знаков [рус] в статьях Википедии на национальных языках — таких как йоруба [рус], хауса [рус] и игбо [рус].

Существуют специальные клавиатуры для Мас и Windows, такие как Yoruba Name и другие виртуальные клавиатуры, отображающие специальные символы, но чтобы их установить и использовать, необходимо обладать некоторыми техническими навыками. Одедере предложил встроить решение проблемы в саму Википедию. Он написал предложение на странице запросов сообщества Викимедии о том, чтобы языки йоруба, хауса и игбо были добавлены в Универсальный переключатель языков — сервис, доступный для Википедии и других проектов Викимедии, «позволяющий пользователям печатать текст на различных языках, не поддерживаемых их клавиатурой напрямую, читать текст, написанный шрифтом, который не поддерживается программным обеспечением, а также настраивать язык, на котором отображается меню». Запрос был одобрен, и языковая команда Викимедии включила три западно-африканских языка в сервис. Теперь для того, чтобы напечатать букву с диакритическим знаком, редакторам Википедии нужно набрать на клавиатуре компьютера или ноутбука тильду (~) перед соответствующей буквой.

Модернизация текста на гавайском языке одним нажатием кнопки

Гавайский язык имеет долгую историю письменности — с XIX по начало XX века на нем было издано больше 125 000 газетных страниц. К сожалению, большинство этих текстов было написано с использованием орфографии, разработанной миссионерами, которая, в отличие от современной, не в полной мере отражает фонетику языка. Такие тексты, в итоге, тяжело воспринимаются современным читателем и не могут быть использованы для обучения систем обработки естественного языка. В статье исследователей из Оксфордского университета и компании Google Deep Mind описана система, объединяющая так называемый «конечный преобразователь», хорошо известную в области технологию, с глубинным обучением для создания системы автоматической модернизации гавайских текстов. Этот подход, возможно, удастся использовать и для множества других языков, подвергшихся орфографическим изменениям или стандартизации.

Заговорят ли Siri и Alexa на валлийском?

Министр валлийского языка правительства Уэльса Элюнед Морган заявила о том, как важно, чтобы умные колонки и другие устройства, управляемые голосом, как, например, Siri и Alexa, были адаптированы под распознавание валлийского языка. Эта задача является частью программы правительства Уэльса по развитию и поддержанию валлийского языка и технологий, запущенной 23 октября 2018 года.

Запуск такой программы говорит о высокой роли технологий в повседневной жизни, а также о том, как важно, чтобы валлийцы могли использовать родной язык при взаимодействии с техникой: «Мы хотим, чтобы люди могли свободно говорить как на валлийском, так и на английском при использовании технологий дома, в школе, на работе или в поездках». Программа по развитию и поддержанию валлийского языка и технологий является частью правительственного плана по достижению одного миллиона носителей валлийского языка к 2050 году и предполагает обучение искусственного интеллекта распознаванию разговорного валлийского, а также улучшение технологии машинного перевода.

Технология распознавания речи помогает документировать язык сенека

Команда исследователей из Рочестерского технологического института в США разрабатывает технологию распознавания голоса, чтобы использовать её в работе по документированию и транскрибированию языка сенека. Это исчезающий язык американского коренного населения, на котором говорит менее 50 человек, что требует его скорейшего документирования и сохранения. Так как процесс записи и ручного транскрибирования речи требует значительного вложения денег и времени, исследователи надеются разработать технологию распознавания голоса, которая поможет им в данной работе.

Распознавание речи — это технологический процесс, при котором звук человеческого голоса автоматически преобразуется в письменную форму. Создать систему распознавания речи для языков с малым количеством данных довольно сложно, так как такие обучение таких систем распознанию языка требует большого объема информации. За это передовое исследование команда получила от американского Национального научного фонда 181 682 доллара за четыре года работы.

Предстоящие мероприятия и события

Начать обсуждение

Авторы, пожалуйста вход в систему »

Правила

  • Пожалуйста, относитесь к другим с уважением. Комментарии, содержащие ненависть, ругательства или оскорбления не будут опубликованы.