КЛАССИФИКАЦИЯ ПОТОКОВЫХ ДАННЫХ НА ОСНОВЕ БАЙЕСОВСКОГО КРИТЕРИЯ


УДК 004.852
DOI: 10.26102/2310-6018/2020.28.1.034

Л.С. Ломакина, А.Н. Субботин


Рассматривается проблема классификации потоковых данных, поступающих из различных источников в случайные моменты времени. Это может быть поток данных, содержащих результаты измерения датчиков, расположенных в прибрежных зонах океанов, позволяющий оценивать параметры состояния экосистемы, и также поток текстов, получаемых, например, в письмах электронной почты и т. д. Интернет содержит большие объёмы неструктурированной информации, отсутствие организации которых делает работу с данными неудобной и ресурсоёмкой. Преодоление указанного недостатка является актуальной задачей. Классификация служит инструментом, позволяющим облегчить работу с неструктурированной информацией. Разработан алгоритм классификации потоковых данных на основе байесовского критерия. Построена математическая модель потоковых текстовых данных, позволяющая применять алгоритмы классификации текстов на естественном языке на потоковых данных. Предложена модификация наивного байесовского классификатора, использующая характеристику tf-idf как меру принадлежности терминов классам, позволяющая улучшить качество классификации. Классификатор был обучен с помощью машинного фонда русского языка. Разработано программное обеспечение, позволяющее извлекать потоковые текстовые данные из сети Интернет и производить классификацию разработанным алгоритмом в реальном времени.

Ключевые слова: классификация, классификатор, поток данных, байесовский критерий, байесовский классификатор.

Полный текст статьи:
LomakinaSubbotin_1_20_1.pdf