В то время как в подавляющем большинстве научных публикаций по теме основной единицей анализа являются публикации в иностранных социальных сетях (Twitter, Facebook [принадлежит компании Meta, признанной экстремистской на территории РФ]), существует недостаток знания о характеристиках онлайн коммуникации в российских социальных медиа, формах и закономерностях пользовательской активности в них.
Я исследую дискуссии в социальной сети ВКонтакте, являющейся самой популярной на территории РФ, применяя сразу несколько моделей машинного обучения.
Я спрарсил все посты и комментарии к ним из нескольких новостных сообществ ВК. Дальше для каждого поста была посчитана метрика токсичности треда комментариев (как среднее токсичностей каждого комментария) с помощью вероятностей, выдаваемой логистической регрессией, которую я предварительно обучил на наборе токсичных предложений из свободнодоступного источника. Весь корпус постов был проанализирован LDA моделью, на основании выхода которой были получены вероятности принадлежности конкретного поста к определенной теме. После чего вероятности принадлежности регрессируются на уровень токсичности комментариев поста. Тематики, которые были близки к политическому, показали статистически значимые зависимости.