- Global Voices по-русски - https://ru.globalvoices.org -

В Twitter говорят о Путине и Порошенко: языковой анализ

Категории: Восточная и Центральная Европа, Россия, Украина, гражданская журналистика, политика, СМИ и журналистика, язык, Эхо Рунета
Редакция изображения: Татьяна Локоть.

Редакция изображения: Татьяна Локоть.

Эта статья — часть проекта по анализу данных по гражданским медиа, проводимого в качестве совместной инициативы «Эха Рунета» [1] и Мэрилендского института технологий в области гуманитарных наук [2] [анг]. Вы можете изучить полную серию статей на странице рубрики«Все президентские твиты [3]».

Когда в прошлом октябре мы начали собирать наши данные, нас в основном интересовало, что говорят о своих президентах россияне и украинцы. Но мы решили забросить сеть побольше и собрать все твиты, содержащие фамилии глав государству на русском (Путин и Порошенко), украинском (Путін и Порошенко) и английском (Putin и Poroshenko). В конце концов, мы получили более шести миллионов твитов — 6 342 294, если точно.

Собрав данные, мы столкнулись с проблемой: как мы можем отличить, когда пишет в Twitter о Путине или Порошенко россиянин или украинец, а когда — британец или кореец? Есть несколько признаков твитов и аккаунтов, которые помогают помочь страну и язык пользователя. Во-первых, местоположение, указанное пользователем в профиле. Далее, язык, выбранный пользователем для аккаунта и интерфейса. В-третьих, каждый твит также имеет языковой индикатор, определяемый настройками клавиатуры и содержанием твита. Наконец, некоторые пользователи включают на своих смартфонах отслеживание по геолокации, и в таком случае каждый твит также получает набор координат, которые можно проследить по карте.

Никакая из этих опций не раскрывает вам национальность пользователя со 100-процентной уверенностью, конечно же, но каждая из них даёт полезную информацию. Итак, в этом выпуске мы рассмотрим использование различных языков в твитах из нашего набора данных и оставим твиты с геолокациями и дальнейшее обсуждение сообщений из конкретных стран на следующий раз.

Вот анализ нашего архива шести миллионов твитов.

 

Сразу очевидно, что больше всего места занимают твиты на русском, составляя более половины всех твитов в массиве данных. Но пользователи Twitter, публикующие сообщения на русском, — это не только россияне, но также украинцы, казахи, молдаване и граждане других бывших советских республик. Русскоговорящие эмигранты во всех странах от Италии до Австралии также вносят вклад в серьёзное присутствие этого языка в нашем наборе данных.

Хотя русский удерживает первое место, многие украинцы пишут то на русском, то на украинском, так что реальной корреляции между числом твитов на русском и на украинском и числом пользователей
Twitter в России (более восьми миллионов в 2014 году [5]) и на Украине (около 600 000 на июль 2014 года [6]) нет.

Кроме того, мы знаем, что и русские, и украинцы часто пишут в Twitter не на родных языках, а, например, на английском и французском. Это особенно очевидно во времена политических потрясений, согласуясь с поведением, которое Поэлл (Poell) и Дармони (Darmoni) описали в своём исследовании 2012 года о революции в Тунисе [7] [анг], когда люди писали твиты на английском, чтобы привлечь западные СМИ и англоговорящих пользователей.

Использование хэштегов на латинице и кириллице одновременно в одном твите — ещё один фактор, затрудняющий языковой анализ. Проведя анализ миллионов твитов [8] [анг] во время протестов Евромайдана на Украине, Катерина Куксенок заметила «большое число твитов, использующих равнозначные хэштеги на разных языках» (например, «#Євромайдан #Евромайдан #Euromaidan»), по всей видимости для увеличения распространения твитов.

В то время как нахождение русского и украинского на вершине нашей языковой пирамиды легко объяснить, попадание в топ некоторых других языков менее очевидно, особенно если сравнить результаты по нашему набору с более широкой статистикой наиболее используемых в Twitter языков.

 

Популярность английского очевидна, так как англоговорящие пользователи живут не только в англоговорящих странах, как США и Великобритания, но и по всему миру. Испанский в целом популярен в Twitter, что также отражено в анализе нашей выборки.

Однако французский в целом менее популярен, а немецкий — и того меньше, и всё же написанные на них твиты занимают достаточно значительную часть в нашей выборке. Возможно, причина в том, что Франция и Германия тесно связаны с переговорами между Украиной и Россией по поводу конфликта на востоке Украины, из-за чего «обитатели» СМИ и социальных сетей в обеих странах выше среднего уделяют внимание действиям Порошенко и Путина.

То же, судя по всему, верно и для пользователей Twitter из Турции и Италии, так как число туркоязычных твитов, содержащих упоминания двух президентов, почти равно числу твитов на немецком, и итальянский отстаёт не намного, показывая повышенное внимание этих стран к судьбе соседей.

Примечательно относительно малое количество твитов на японском в нашем наборе, учитывая, что довольно большая часть всего контента Twitter — 16 процентов — создаётся на японском. Арабский, малайский и португальский также составляют незначительную часть твитов о президентах России и Украины, тогда как говорящие на индонезийском пользователи Twitter, судя по всему, более заинтересованы этим вопросом.

Хотя миру в целом очевидно интересны действия лидеров России и Украины, наиболее заинтересованы, судя по всему, пользователи русскоязычной и украинской сфер Twitter. Продалжая их исследование, мы надеемся представить вам новый взгляд на политические споры и обсуждения в Рунете и более сложное понимание того, что Владимир Путин и Пётр Порошенко значат для пользователей Twitter на Украине и в России.