АНАЛИЗ МЕТОДОВ КЛАССИФИКАЦИИ ИНФОРМАЦИИ В ИНТЕРНЕТЕ ПРИ РЕШЕНИИ ЗАДАЧ ИНФОРМАЦИОННОГО ПОИСКА

УДК 025.4

Мэн Цинань

В связи с тем, что в Интернете хранится большое количество информации, должны быть использованы эффективные методы ее поиска. Чертами, присущими профессиональному поиску, являются полнота, достоверность и высокая скорость. Эти характеристики могут быть достигнуты при использовании соответствующих способов классификации. В статье рассмотрено несколько подходов. Кластерный метод основывается на разбиении элементов множества на группы. Расстояние между элементами задается метрикой. Лингвистический анализ основывается на возможностях извлечения информации из текста. Представлена схема лингвистической обработки. Статистические подходы исходят из определенных закономерностей частоты встречи слов. Анализ признаков заключается в изучении морфемных, морфологических и синтаксических признаков слов и предложений в тексте. Семантический анализ занимается разбором текста относительно значения слов внутри него. Комбинированный подход подразумевает использование нескольких из вышеописанных подходов в связке, последовательной или параллельной, для повышения точности анализа. В зависимости от возникающих задач, будет полезен соответствующий метод классификации.

Ключевые слова: поиск информации, интернет, статистика, классификация, семантика, признак, метрика, слово.

Полный текст статьи:
MenCinan_2_16_1.pdf