Для цитирования:
Григорьева Е. Г., Клячин В. А. Исследование статистических характеристик текста на основе графовой модели лингвистического корпуса // Известия Саратовского университета. Новая серия. Серия: Математика. Механика. Информатика. 2020. Т. 20, вып. 1. С. 116-126. DOI: 10.18500/1816-9791-2020-20-1-116-126, EDN: KNPYYV
Исследование статистических характеристик текста на основе графовой модели лингвистического корпуса
Статья посвящена исследованию статистических характеристик текста, которые вычисляются на базе графовой модели представления текста из лингвистического корпуса. Во введении излагается актуальность статистического анализа текстов и приводятся некоторые задачи, решаемые с помощью такого анализа. Предлагаемая в статье графовая модель текста строится как граф, в вершинах которого расположены слова текста, а ребра графа отражают факт попадания двух слов в какую-либо часть текста, например в предложение. Для вершин и ребер графа в статье вводятся понятия веса как значения из некоторой аддитивной полугруппы. Доказываются формулы вычисления графа и его весов при конкатенации текстов. На основе предложенной модели реализуются вычисления на языке программирования Python. Для экспериментального исследования статистических характеристик выделяются 24 величины, которые выражаются через веса вершин, ребер графа, а также других характеристик графа, например степени его вершин. Надо отметить, что целью численных экспериментов является поиск характеристик текста, с помощью которых можно определять, является ли текст созданным человеком или случайно сгенерированным. В статье предлагается один из возможных таких алгоритмов, который генерирует случайный текст, используя некоторый созданный человеком другой текст в качестве шаблона. При этом в случайном тексте сохраняется последовательность чередования частей речи вспомогательного текста. Оказывается, что требуемым условиям удовлетворяет медианное значение отношения величины веса ребра графа текста к числу предложений в тексте.
- Кипяткова И. С., Карпов А. А. Автоматическая обработка и статистический анализ новостного текстового корпуса для модели языка системы распознавания русской речи // Информационно-управляющие системы. 2010. № 4 (47). С. 2–8.
- Колмогорова А. В., Калинин А. А., Маликова А. В. Лингвистические принципы и методы компьютерной лингвистики для решения задач сентимент-анализа русскоязычных текстов // Актуальные проблемы филологии и педагогической лингвистики. 2018. № 1 (29). С. 139–148. DOI: https://doi.org/10.29025/2079-6021-2018-1(29)-139-148
- Воронина И. Е., Кретов А. А., Попова И. В. Алгоритмы определения семантической близости ключевых слов по их окружению в тексте // Вестн. ВГУ. Сер. Системный анализ и информационные технологии. 2010. № 1. С. 148–153.
- Берман Н. Д., Левенец А. В., Сергеева Л. А. Статистический анализ текстовой информации // Информационные технологии XXI века : сб. науч. тр. / отв. за вып. Е. А. Шеленок. Хабаровск : Изд-во Тихоокеан. гос. ун-та, 2016. С. 282–286.
- Донина О. В. Применение методов Data Mining для решения лингвистических задач // Вестн. ВГУ. Сер. Системный анализ и информационные технологии. 2017. № 1. С. 154– 160.
- Mikolov T., Chen K., Corrado G., Dean J. Efficient Estimation of Word Representations in Vector Space. arxiv.org/abs/1301.3781v3
- Райгородский А. М. Случайные графы // Математика в задачах. Сборник материалов выездных школ команды Москвы на Всероссийскую математическую олимпиаду / под ред. А. А. Заславского, Д. А. Пермякова, А. Б. Скопенкова, М. Б. Скопенкова, А. В. Шаповалова. М. : Изд-во МЦНМО, 2009. С. 312–315.
- Erdos P., R ˝ anyi A. ´ On random graphs I // Publ. Math. Debrecen. 1959. Vol. 6. P. 290–297.
- Newman M. E. J., Strogatz S. H., Watts D. J. Random graphs with arbitrary degree distribution and their applications // Phys. Rev. E. 2001. Vol. 64. P. 26–118.
- Павлов Ю. Л., Чеплюкова И. А. Случайные графы Интернет-типа и обобщенная схема размещения // Дискрет. матем. 2008. Т. 20, вып. 3. С. 3–18. DOI: https://doi.org/10.4213/dm1008
- Павлов Ю. Л. О предельных распределениях степеней вершин в условных Интернет-графах // Дискрет. матем. 2009. Т. 21, вып. 3. С. 14–23. DOI: https://doi.org/10.4213/dm1057
- 1213 просмотров