Обе новые популярные технологические программы [анг] OpenAI, ChatGPT [анг] и DALL-E2, вызвали массу внимания со стороны СМИ и пользователей социальных сетей. На стыке цифровых прав, IT и журналистики не угасают дискуссии о том, чего можно добиться с помощью таких технологий [анг]: какие рабочие места исчезнут, как решать вопросы авторского права [анг] и как эти программы могут усугубить существующие предрассудки [анг].
Global Voices поэкспериментировали с DALL-E2, генератором изображений на основе ИИ, чтобы посмотреть, какие рисунки он сгенерирует в зависимости от используемого языка. Мы ввели одну и ту же фразу на девяти языках: «Картина маслом силуэт скорбящей женщины у окна».
Вот какие результаты мы получили:
Английский: Oil painting of a shadow of a grieving woman at the window
Испанский: Pintura al óleo de la sombra de una mujer en duelo ante la ventana
Чешский: Olejomalba stínu truchlící ženy u okna
Русский: Картина маслом силуэт скорбящей женщины у окна
Индонезийский: Lukisan cat minyak bayangan seorang janda perempuan yang sedang berduka di samping jendela
Упрощённый китайский: 窗边悲痛女人的影子油画
Казахский: Терезедегі қайғылы әйелдің көлеңкесінің майлы бояу суретi
Узбекский: Deraza oldida qayg'u chekayotgan ayol soyasining moyli rasmi
Малаялам: ജനാലയ്ക്കരികിൽ ദുഃഖിക്കുന്ന ഒരു സ്ത്രീയുടെ നിഴലിന്റെ ഓയിൽ പെയിന്റിംഗ്
Очевидно, что некоторые из этих фотографий не имеют ничего общего с изначальным запросом. Это может быть связано с недостатком данных на языках оригинала. Как объяснили создатели DALL-E в интервью Tech Crunch [анг], модель, по которой он работает, называется CLIP (предварительное обучение контрастному языку и изображению). CLIP обучали на 400 миллионах пар изображений с текстовыми подписями, извлечёнными из интернета. Как написано на сайте OpenAI [анг]:
GPT-3 showed that language can be used to instruct a large neural network to perform a variety of text generation tasks. Image GPT showed that the same type of neural network can also be used to generate images with high fidelity. We extend these findings to show that manipulating visual concepts through language is now within reach.
GPT-3 показал, что язык можно использовать, чтобы написать инструкции большой нейронной сети для выполнения различных задач по генерации текста. Image GPT показал, что тот же тип нейронной сети можно использовать для создания изображений высокой точности. Мы расширили эти изыскания, чтобы показать, что теперь можно с помощью языка манипулировать визуальными концептами.
«Мы живем в визуальном мире, — говорит Илья Суцкевер, главный научный сотрудник OpenAI, в интервью MIT Technological Review [анг]:
In the long run, you’re going to have models which understand both text and images. AI will be able to understand language better because it can see what words and sentences mean.
В конечном итоге у вас будут модели, которые понимают как текст, так и изображения. ИИ сможет лучше понимать язык, потому что он сможет видеть, что означают слова и предложения.
Поскольку разные языки давали такие разные результаты, похоже, что в центре внимания веб-скрейпинга, с которым работает модель, оказывались наиболее распространённые языки, такие как английский или испанский, а менее популярные оставались в стороне.
Так, многие картинки из интернета с описанием на узбекском или малаялам отсутствовали в исходных данных, по которым обучался ИИ. Если модель планируется использовать с большим количеством языков, необходимо уделить внимание обучению системы с помощью изображений, описания к которым будут не на английском. В противном случае пользователям из Казахстана по-прежнему будут преподносить картинки сытных блюд вместо женщины, а говорящим на малаялам — изображения природы. Российский образ почему-то явно сексуализирован. На индонезийском изображении — несколько девушек, а чешский вариант получает приз за оригинальность с банкой масла в роли героини снимка. Картинки на упрощённом китайском откровенно пугают.
Конечно, на основании этого эксперимента мы не можем утверждать, что OpenAI — расистский. Мы видим только лишь то, что ИИ получил недостаточно данных на других языках. Сохранится ли эта проблема в будущем, мы не знаем, но очень бы хотелось увидеть улучшения.