ИЗВЛЕЧЕНИЕ ОПИСАНИЙ МОРФОЛОГИЧЕСКИХ ПРИЗНАКОВ ТЕХНИЧЕСКИХ ОБЪЕКТОВ ИЗ РУССКОЯЗЫЧНЫХ ПАТЕНТОВ

УДК 004.89

С.С. Васильев, А.А. Харитонов , Д.М. Коробкин, С.А. Фоменков


Задача автоматизации синтеза инновационных решений в области технических систем и технологий является одной из наиболее приоритетных проблем науки. Авторы работы предлагают осуществлять автоматизацию важнейших, начальных этапов проектирования новых технических систем и технологий на основе актуализируемых баз знаний, полученных из мирового патентного массива, в том числе из патентной базы РосПатента. Согласно методу морфологического анализа и синтеза предполагается, что из некоторого технического решения (патента) извлекаются основные структурные признаки (функции технических объектов), на основе которых ищутся альтернативные варианты. Все полученные признаки сводятся в морфологическую таблицу, комбинируются, что дает множество новых решений. В данной работе описывается процесс разработки модуля извлечения описаний технических функций из российских патентов. Была сформирована грамматика представления описаний технических функций в текстах русскоязычных патентов согласно модели «Действие-Объект-Условие»; разработаны алгоритмы первичной обработки патентного массива, извлечения технических функций посредством анализа деревьев зависимостей, формирования морфологической таблицы. Работоспособность программного модуля, состоящего из блока обработки патентного массива; блока сегментации текста патентной формулы; блока семантического анализа текста; блока извлечения описаний технических функций; блока представления результатов обработки патентного массива, была проверена на ряде тестовых задач.

Ключевые слова: технические функции, обработка естественно-языковых текстов, патенты, РосПатент, Link Grammar Parser, грамматика.

Полный текст статьи:
VasilyevSoavtori_4_18_1.pdf