Клячин В.А., Хижнякова Е.В. О возможности использования индекса Винера для вычисления признаков текстов на естественном языке
- Подробности
- Просмотров: 44
DOI: https://doi.org/10.15688/mpcm.jvolsu.2025.3.3
Владимир Александрович Клячин
Доктор физико-математических наук, заведующий кафедрой компьютерных наук и экспериментальной математики, Волгоградский государственный университет
Этот адрес электронной почты защищен от спам-ботов. У вас должен быть включен JavaScript для просмотра.
,
Этот адрес электронной почты защищен от спам-ботов. У вас должен быть включен JavaScript для просмотра.
https://orcid.org/0000-0003-1922-7849
просп. Университетский, 100, 400062 г. Волгоград, Российская Федерация
Екатерина Владимировна Хижнякова
Старший преподаватель кафедры компьютерных наук и экспериментальной математики, Волгоградский государственный университет
Этот адрес электронной почты защищен от спам-ботов. У вас должен быть включен JavaScript для просмотра. , Этот адрес электронной почты защищен от спам-ботов. У вас должен быть включен JavaScript для просмотра.
https://orcid.org/0000-0002-7914-9988
просп. Университетский, 100, 400062 г. Волгоград, Российская Федерация
Аннотация. В статье показано применение индекса Винера к решению одной из задач обработки текстов на естественном языке. Индекс Винера определяется как сумма всех кратчайших расстояний во взвешенном связном графе. Эта величина характеризует сложность графа. В настоящей работе вводятся две нормализации этого индекса. В первом варианте обычный индекс Винера N вершинного связного графа делится на (N − 1)2 . Во втором варианте индекс Винера евклидова графа делится на сумму расстояний между любой парой не совпадающих вершин. Для применения к задачам обработки текста в статье вводится граф предложений текста: ребро образует пара слов, которые встречаются в тексте в каком-либо предложении. Чтобы вычислять величину индекса Винера для евклидова графа, применяется вложение слов. В статье вкратце описан алгоритм обучения вложению слов Т. Миколова. Дополнительно приводится алгоритм приближенного вычисления остовного дерева с минимальным индексом Винера. Алгоритм основан на минимизации нового слагаемого при добавлении ребра к построенной части дерева. С целью идентификации неинформативного текста вычисляются 4 признака на основе индекса Винера и его модификаций. Классификация осуществляется стандартными методами машинного обучения.
Ключевые слова: граф, индекс Винера, остовное дерево, вложение слов, машинное обучение.

Произведение «О возможности использования индекса Винера для вычисления признаков текстов на естественном языке», созданное авторами по имени Клячин В.А., Хижнякова Е.В. публикуется на условиях лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Цитата: Математическая физика и компьютерное моделирование. Том 28 № 4 2025, с. 24-36
