giphy.com

N+1

Новые метрики помогут найти смысл в «hahaha» и «yaaay»

by

Американские лингвисты разработали метрики для количественного анализа удлиненных слов, употребляемых при общении в социальных сетях, — таких как «hahaha», «goooaaaallll» или «yaaay». Статистику употребления таких слов ученые количественно описали с помощью двух независимых показателей: растяжимости и сбалансированности слова. Этот подход можно использовать для анализа языка общения в различных приложениях и влияния ограничений и сервисов, пишут ученые в PLoS ONE.

Чтобы придать своему высказыванию эмоциональную окраску, в устной речи можно повысить или понизить голос, или добавить ему подходящую интонацию. В письменной литературной речи на помощь придут знаки препинания и словесное описание эмоций, но при общении в интернете работают немного другие законы. Кроме знаков препинания (которые не всегда работают так же, как при других способах общения), для выражения эмоций люди используют эмодзи или стикеры, но и в рамках вербальной коммуникации есть свои приемы: например, можно писать только прописные буквы или растянуть слово, повторив в нем одну или несколько букв.

При общении в социальных сетях употребление растянутых форм слова уже давно не редкость — в них могут повторяться как гласные, так и согласные, при этом отличается и эмоциональная окраска, которая придается реплике: повторение букв может демонстрировать радость, злость, иронию или сострадание. Поэтому лингвисты давно пытаются найти связь между длиной растянутых слов и их эмоциональной окраской и понять, насколько быстро теряется связь с изначальной имитацией растягивания слогов в разговорной речи. Ограничение всех этих исследований в том, что стандартные инструменты математической лингвистики (в частности методы обработки естественного языка) с большим трудом переносятся на язык общения в интернете, а специальных универсальных метрик для его анализа практически нет.

Американские лингвисты из Вермонтского университета под руководством Питера Шеридана Доддса (Peter Sheridan Dodds) предложили такие метрики для анализа удлиненных слов. Для этого ученые проанализировали случайную выборку англоязычных твитов с 2008 по 2016 годы. Всего ученые проанализировали примерно 100 миллиардов англоязычных твитов, в которых употреблялись растянутые формы слов.

Для каждого растянутого слова лингвисты выделили ядро — то есть начальную форму, в которой повторений символов нет. По словам авторов работы, это ядро может удлиняться несколькими способами: если повторяется каждый из символов (то есть «goal» превращается в «ggggoooaaaaaalllll»), повторяются только некоторые буквы слова (например гласные: «goal» → «goooooaaaaal»), повторяются элементы, состоящие из нескольких символов («ha» → «hahahhahaa») или смешанный тип, сочетающий несколько принципов.

https://nplus1.ru/images/2020/05/29/586459744622b07b7af3c58cbd757b3c.png
Число повторяемых символов в удлиненном слове «goal» в зависимости от его длины
Tyler J. Gray et al./ PLoS ONE, 2020
https://nplus1.ru/images/2020/05/29/e7159550df285841328b165509c7c2d8.png
Частота употребления удлиненного слова «goal» в зависимости от его длины
Tyler J. Gray et al./ PLoS ONE, 2020

Для анализа статистики использования удлиненных форм ученые предложили использовать две независимые метрики: растяжимость (stretch) слова и его сбалансированность (balance). Первая величина фактически представляет собой коэффициент Джини и показывает, насколько часто встречаются более длинные формы слова (этот параметр равен нулю, если растянутые формы вообще в твитах не встречаются, и ближе к единице, если более длинные формы встречаются часто). А вторая — нормализованная энтропия, рассчитанная из средних вероятностей употребления удлиненных форм слова, — показывает неодинаковость повторения разных элементов в слове: если все буквы повторяются одинаковое количество раз, то сбалансированность будет равна единице, а если повторяется только одна буква из всего слова, то нулю.

https://nplus1.ru/images/2020/05/29/4c5b55ae07a0067a3c2ac2583f826900.png
Десятка слов с максимальной сбалансированностью (H)
Tyler J. Gray et al./ PLoS ONE, 2020
https://nplus1.ru/images/2020/05/29/0ac791cad46d252e1af3ef90c68d199a.png
Десятка слов с минимальной сбалансированностью (H)
Tyler J. Gray et al./ PLoS ONE, 2020
https://nplus1.ru/images/2020/05/29/698e84b56867b64a41c482d328ced8d1.png
Десятка слов с максимальной растяжимостью (G)
Tyler J. Gray et al./ PLoS ONE, 2020
https://nplus1.ru/images/2020/05/29/94210e3bd9ec1c73088fc4e38c4399cf.png
Десятка слов с минимальной растяжимостью (G)
Tyler J. Gray et al./ PLoS ONE, 2020

Ученые выделили слова с наименьшими и наибольшими растяжимостью и сбалансированностью, а также проанализировали статистику употребления слов с одним ядром, но различной длиной. Лингвисты заметили, что для одного и того же ядра частота употребления удлиненной формы слова уменьшается с возрастанием длины слова по логарифмическому закону с небольшими отклонениями около границ: поскольку максимальное количество символов в твитах ограничено, то хвост распределения поднимается вверх при приближении к максимальной длине в 140 символов (такое ограничение было на момент написания твитов).

https://nplus1.ru/images/2020/05/29/afcc8b47aee0f66e45956f032fbed089.png
Дерево побуквенного написания различных форм удлиненного слова с ядром «ha»
Tyler J. Gray et al./ PLoS ONE, 2020

Кроме этого, ученые построили деревья побуквенных написаний слов с повторяющимися элементами и обратили внимание на частоту нарушения правильного порядка букв в словах с двухбуквенным повторяющимся элементом (таких, как «hahaha»). Так, например, слово «hahhahahahahahaha» с лишней «h» встречалось в выборке целых 13 894 раз. Лингвисты отмечают, что предложенные ими метрики могут помочь при анализе опечаток в словах, их статистического распределения и динамики, а также для оценки преднамеренности «опечатки».

По словам авторов работы, предложенный ими метод можно использовать для сравнения языка, используемого при общении на различных платформах, или для оценки влияния на язык функции автоисправления или ограничений на длину твитов.

Твиты — огромный массив данных, который можно использовать не только для исследования языка интернет-общения, но и, например, для анализа особенностей распространения информации. Так, в 2018 году американские ученые показали, что фальшивая информация и слухи распространяются в твиттере быстрее реальных новостей.

Александр Дубов