Для цитирования:

Григорьева Е. Г., Клячин В. А. Исследование статистических характеристик текста на основе графовой модели лингвистического корпуса // Известия Саратовского университета. Новая серия. Серия: Математика. Механика. Информатика. 2020. Т. 20, вып. 1. С. 116-126. DOI: 10.18500/1816-9791-2020-20-1-116-126, EDN: KNPYYV

Статья опубликована на условиях лицензии Creative Commons Attribution 4.0 International (CC-BY 4.0).

Опубликована онлайн:

02.03.2020

Полный текст:

скачать

(downloads: 794)

Язык публикации:

русский

Рубрика:

Информатика

Тип статьи:

Научная статья

УДК:

519.688+004.942

DOI:

10.18500/1816-9791-2020-20-1-116-126

EDN:

KNPYYV

Исследование статистических характеристик текста на основе графовой модели лингвистического корпуса

Авторы:

Григорьева Елена Геннадиевна, Волгоградский государственный университет

Клячин Владимир Александрович, Волгоградский государственный университет

Аннотация:

Статья посвящена исследованию статистических характеристик текста, которые вычисляются на базе графовой модели представления текста из лингвистического корпуса. Во введении излагается актуальность статистического анализа текстов и приводятся некоторые задачи, решаемые с помощью такого анализа. Предлагаемая в статье графовая модель текста строится как граф, в вершинах которого расположены слова текста, а ребра графа отражают факт попадания двух слов в какую-либо часть текста, например в предложение. Для вершин и ребер графа в статье вводятся понятия веса как значения из некоторой аддитивной полугруппы. Доказываются формулы вычисления графа и его весов при конкатенации текстов. На основе предложенной модели реализуются вычисления на языке программирования Python. Для экспериментального исследования статистических характеристик выделяются 24 величины, которые выражаются через веса вершин, ребер графа, а также других характеристик графа, например степени его вершин. Надо отметить, что целью численных экспериментов является поиск характеристик текста, с помощью которых можно определять, является ли текст созданным человеком или случайно сгенерированным. В статье предлагается один из возможных таких алгоритмов, который генерирует случайный текст, используя некоторый созданный человеком другой текст в качестве шаблона. При этом в случайном тексте сохраняется последовательность чередования частей речи вспомогательного текста. Оказывается, что требуемым условиям удовлетворяет медианное значение отношения величины веса ребра графа текста к числу предложений в тексте.

Ключевые слова:

текст

лингвистический корпус

граф

автоматическая обработка текста

Список источников:

Кипяткова И. С., Карпов А. А. Автоматическая обработка и статистический анализ новостного текстового корпуса для модели языка системы распознавания русской речи // Информационно-управляющие системы. 2010. № 4 (47). С. 2–8.
Колмогорова А. В., Калинин А. А., Маликова А. В. Лингвистические принципы и методы компьютерной лингвистики для решения задач сентимент-анализа русскоязычных текстов // Актуальные проблемы филологии и педагогической лингвистики. 2018. № 1 (29). С. 139–148. DOI: https://doi.org/10.29025/2079-6021-2018-1(29)-139-148
Воронина И. Е., Кретов А. А., Попова И. В. Алгоритмы определения семантической близости ключевых слов по их окружению в тексте // Вестн. ВГУ. Сер. Системный анализ и информационные технологии. 2010. № 1. С. 148–153.
Берман Н. Д., Левенец А. В., Сергеева Л. А. Статистический анализ текстовой информации // Информационные технологии XXI века : сб. науч. тр. / отв. за вып. Е. А. Шеленок. Хабаровск : Изд-во Тихоокеан. гос. ун-та, 2016. С. 282–286.
Донина О. В. Применение методов Data Mining для решения лингвистических задач // Вестн. ВГУ. Сер. Системный анализ и информационные технологии. 2017. № 1. С. 154– 160.
Mikolov T., Chen K., Corrado G., Dean J. Efficient Estimation of Word Representations in Vector Space. arxiv.org/abs/1301.3781v3
Райгородский А. М. Случайные графы // Математика в задачах. Сборник материалов выездных школ команды Москвы на Всероссийскую математическую олимпиаду / под ред. А. А. Заславского, Д. А. Пермякова, А. Б. Скопенкова, М. Б. Скопенкова, А. В. Шаповалова. М. : Изд-во МЦНМО, 2009. С. 312–315.
Erdos P., R ˝ anyi A. ´ On random graphs I // Publ. Math. Debrecen. 1959. Vol. 6. P. 290–297.
Newman M. E. J., Strogatz S. H., Watts D. J. Random graphs with arbitrary degree distribution and their applications // Phys. Rev. E. 2001. Vol. 64. P. 26–118.
Павлов Ю. Л., Чеплюкова И. А. Случайные графы Интернет-типа и обобщенная схема размещения // Дискрет. матем. 2008. Т. 20, вып. 3. С. 3–18. DOI: https://doi.org/10.4213/dm1008
Павлов Ю. Л. О предельных распределениях степеней вершин в условных Интернет-графах // Дискрет. матем. 2009. Т. 21, вып. 3. С. 14–23. DOI: https://doi.org/10.4213/dm1057

Поступила в редакцию:

28.02.2019

Принята к публикации:

19.05.2019

Опубликована:

02.03.2020

Журнал:

Известия Саратовского университета. Новая серия. Серия: Математика. Механика. Информатика. 2020. Т. 20, вып. 1

1868 просмотров

Серия Математика. Механика. Информатика

Рубрики

Для цитирования:

Исследование статистических характеристик текста на основе графовой модели лингвистического корпуса

Рубрики

Для цитирования:

Исследование статистических характеристик текста на основе графовой модели лингвистического корпуса

Вход на сайт