Тематическое моделирование для коротких текстов: сравнительный анализ алгоритмов
Научная статья
Для цитирования
Ващенко В.А. Тематическое моделирование для коротких текстов: сравнительный анализ алгоритмов // Социология: методология, методы, математическое моделирование (Социология:4М). 2024. № 56. С. 69-112. DOI: https://doi.org/10.19181/4m.2023.32.1.2 EDN: SJPPOZ
Устойчивый рост популярности социальных сетей в качестве средства коммуникации актуализирует методологические вопросы, связанные с особенностями обработки коротких текстов, обладающих меньшим семантическим контекстом, чем крупные тексты, широко используемые для обучения и тестирования моделей машинного обучения для работы с текстовыми данными. Тематическое моделирование – метод машинного обучения «без учителя», нацеленный на агрегацию текстов в тематические кластеры, – имеет множество академических и практических приложений в случаях отсутствия подробной разметки текстовых данных. Однако качество работы алгоритмов тематического моделирования может ограничиваться полнотой семантического контекста, необходимого для качественного числового представления единицы текста. В этой статье рассматриваются шесть разных подходов к тематическому моделированию, основанных на различающихся принципах концептуализации текста и тем. Сравнивается качество работы указанных алгоритмов на наборе русскоязычных комментариев в сети TikTok и проводится формальная оценка скорости и когерентности результирующих тем.
Ключевые слова:
тематическое моделирование, анализ текстовых данных, блокмоделинг, прикладной сетевой анализ, анализ социальных медиа, трансформерные модели
Поступила: 02.09.2023
Опубликована: 17.07.2024
Форматы цитирования
Другие форматы цитирования:
Ващенко, В. А. (2024). Тематическое моделирование для коротких текстов: сравнительный анализ алгоритмов. Социология: методология, методы, математическое моделирование (Социология:4М), (56), 69-112. https://doi.org/10.19181/4m.2023.32.1.2