Каныгин А.В. Построение модели для решения задачи классификации рассудительного текста.

Рейтинг:   / 0
ПлохоОтлично 

DOI:  https://doi.org/10.15688/mpcm.jvolsu.2025.1.3

Александр Владимирович Каныгин
Аспирант кафедры компьютерных наук и экспериментальной математики, Волгоградский государственный университет

Этот адрес электронной почты защищен от спам-ботов. У вас должен быть включен JavaScript для просмотра.

просп. Университетский, 100, 400062 г. Волгоград, Российская Федерация

Аннотация. В статье рассмотрена задача классификации текстов на предмет наличия в них рассуждений (логических связок, аргументации, причинно-следственных отношений). Цель исследования — разработать метод, позволяющий с высокой точностью определять «рассудительный» характер фрагмента текста, используя современные алгоритмы машинного обучения. Особое внимание уделено ансамблевому подходу на основе стекинга: в качестве базовых классификаторов рассматриваются сильные модели (CatBoost, XGBoost, Random Forest и т. п.), а роль мета-модели выполняет логистическая регрессия. Для обоснования выбора стекинга приводятся результаты сравнительного анализа более десяти популярных алгоритмов (Logistic Regression, SVC, Random Forest, CatBoost, XGBoost и др.) по показателям Accuracy, Precision, Recall, F1-score, ROC AUC, PR AUC. Основные этапы исследования включают генерацию и разметку обучающего набора данных, предварительную обработку текстов (токенизацию, лемматизацию, исключение стоп-слов), векторизацию признаков (TF-IDF) и экспериментальное сравнение моделей на контрольной выборке. Предложенная модель стекинга показала лучшие результаты по совокупности метрик, что позволило повысить точность классификации рассудительных текстов до уровня F1, равного 0,905, при ROC AUC, равному 0,887. В заключении обсуждаются перспективы применения описанного подхода для текстов разной длины и стиля, а также потенциальные методы дальнейшего улучшения качества классификации.

Ключевые слова: машинное обучение, ансамблевые методы, стекинг, TF-IDF, аргументация, анализ текстовых данных.

Лицензия Creative Commons
Произведение «Построение модели для решения задачи классификации рассудительного текста.
», созданное авторами по имени Каныгин А.В.  публикуется на условиях лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.

Цитата: Математическая физика и компьютерное моделирование. Том 27 № 1 2025, с. 27-39

Вложения:
Скачать этот файл (kanygin.pdf) kanygin.pdf
URL: https://mp.jvolsu.com/index.php/ru/component/attachments/download/1221
12 Скачивания