Архив метки: машинное обучение

СИСТЕМА ОБНАРУЖЕНИЯ ВРЕДОНОСНОГО ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ НА ОСНОВЕ ТЕХНОЛОГИИ МАШИННОГО ОБУЧЕНИЯ


УДК 004.85:004.056.57
DOI: 10.26102/2310-6018/2020.30.3.042

О.Н. Выборнова, И.А. Пидченко


Непрерывный рост числа вредоносных программ делает актуальной задачу их обнаружения: классификации программ на вредоносные и безопасные. В связи с этим, данное исследование посвящено разработке системы обнаружения вредоносного программного обеспечения на основе машинного обучения, а именно, обучения искусственной нейронной сети с учителем. В ходе исследования проведен анализ структуры исполняемых PE-файлов операционной системы Windows, выбраны характеристики из PE-файлов для формирования обучающего множества, а также выбраны и обоснованы топология (четырехуровневый персептрон) и параметры антивирусной нейронной сети. Для создания и обучения модели использовалась библиотека Keras. При формировании обучающего множества применялась база данных безопасного и вредоносного программного обеспечения Ember. Выполнено обучение и проверка адекватности обучения разработанной модели распознавания вредоносного кода. Результаты обучения предложенной в рамках исследования антивирусной нейронной сети показали высокую точность обнаружения вредоносных программ и отсутствие эффекта переобучения, что свидетельствует о хороших перспективах применения модели. Хотя экспериментальная модель нейронной сети пока не способна полностью заменить антивирусные сканеры, материалы статьи представляют практическую ценность для задач классификации программ на вредоносные и безопасные.

Ключевые слова: вредоносное ПО, машинное обучение, антивирусная нейронная сеть, обучение нейронной сети, Keras, Ember, Dropout.

Полный текст статьи:
VybornovaPidchenko_3_20_1.pdf

СРАВНЕНИЕ ЭФФЕКТИВНОСТИ РАЗЛИЧНЫХ МЕТОДОВ ОТБОРА ПРИЗНАКОВ ДЛЯ РЕШЕНИЯ ЗАДАЧИ БИНАРНОЙ КЛАССИФИКАЦИИ ПРЕДСКАЗАНИЯ НАСТУПЛЕНИЯ БЕРЕМЕННОСТИ ПРИ ПРОВЕДЕНИИ ЭКСТРАКОРПОРАЛЬНОГО ОПЛОДОТВОРЕНИЯ


УДК 519.683, 519-7
DOI: 10.26102/2310-6018/2020.30.3.025

С.Л. Синотова, О.В. Лимановская, А.Н. Плаксина, В.А. Макутина


Определение круга факторов, влияющих на объект исследования, является важнейшей задачей медицинских исследований. Ее решение осложняется большим числом разнообразных данных, включающих в себя обширную анамнестическую информацию и данные клинических исследований часто сочетающимся с ограниченным количеством наблюдаемых пациентов. Данная работа посвящена сравнению результатов, полученных различными методами отбора признаков для поиска набора предикторов, на основе которого создана модель с лучшим качеством прогноза, для решения задачи бинарной классификации предсказания наступления беременности при проведении экстракорпорального оплодотворения (ЭКО). В качестве признаков использовались данные анамнеза женщин, представленные в бинарном виде. Выборка состояла из 68 признаков и 689 объектов. Признаки были исследованы на наличие взаимной корреляции, после чего применены методы и алгоритмы для поиска отбора значимых факторов: непараметрические критерии, интервальная оценка долей, Z-критерий для разности двух долей, взаимная информация, алгоритмы RFECV, ADD-DELL, Relief, алгоритмы, основанные на важности перестановок (Boruta, Permutation Importance, PIMP), алгоритмы отбора признаков при помощи модели (lasso, random forest). Для сравнения качества отобранных наборов признаков построены различные классификаторы, посчитана их метрика AUC и сложность модели. Все модели имеют высокое качество предсказания (AUC выше 95%). Лучшие три из них построены на признаках, отобранных с помощью непараметрических критериев, отбора при помощи модели (lasso-регрессия), алгоритмов Boruta, Permutation Importance, RFECV, ReliefF. Оптимальным набором предикторов был выбран набор, состоящий из 30 бинарных признаков, полученный алгоритмом Boruta, из-за меньшей сложности модели при сравнительно высоком качестве (AUC модели 0,983). К значимым признакам отнесены: данные о наличии беременностей в анамнезе в целом, о внематочных и замерших беременностях, самостоятельных и срочных родах, абортах на ранних сроках в частности; гипертония, ишемия, инсульт, тромбозы, язвы, ожирение, сахарный диабет у ближайших родственников; проведение гормонального лечения в настоящее время, не связанного с процедурой ЭКО; аллергия; вредные профессиональные факторы; наличие нормальной продолжительности и стабильности менструального цикла без приема медицинских препаратов; гистероскопия, лапароскопия и лапаротомия в анамнезе; проведение резекций любого органа в мочеполовой системе; первая ли попытка ЭКО, наличие любых хирургических вмешательств, заболеваний мочеполовой системы; возраст и ИМТ пациентки; отсутствие хронических заболеваний; наличие диффузной фиброзно-кистозной мастопатии, гипотиреоза.

Ключевые слова: отбор признаков, задача бинарной классификации, анализ малых данных, машинное обучение, вспомогательные репродуктивные технологии.

Полный текст статьи:
SinotovaSoavtors_3_20_1.pdf

МАЛОРАНГОВЫЕ АППРОКСИМАЦИИ НЕЙРОСЕТЕВЫХ
АЛГОРИТМОВ


УДК 004.89
DOI: 10.26102/2310-6018/2020.30.3.018

Н.В. Шапошникова


На сегодняшний день искусственные нейронные сети (далее ИНС) и глубокое обучение стали практически незаменимыми в приложениях, связанных с задачами машинного зрения, машинного перевода, преобразования речи в текст, рубрикации текстов, обработки видеоданных и т.д. Однако, несмотря на наличие ряда классических теорем, обосновывающих аппроксимирующие способности нейросетевых структур, текущие успехи в области ИНС в большинстве случаев связаны с эвристическим построением архитектуры сети, применимой только для конкретной рассматриваемой задачи. С другой стороны, глубокие ИНС имеют миллионы параметров и требуют для своего функционирования мощные вычислительные устройства, что ограничивает возможности их применения, например, на мобильных устройствах. Существенный прогресс в решении данных проблем может быть получен при использовании современных мощных алгоритмов малоранговых аппроксимаций для параметров слоев ИНС, что позволит как упростить процесс разработки нейросетевой архитектуры, так и получить существенное сжатие и ускорение обучения глубоких ИНС. Рассматривая, например, ядро сверточной ИНС, как четырехмерный массив (тензор), мы можем построить для него малоранговую аппроксимацию с эффективной реализацией его свертки с вектором (прямое распространение сигнала в сети при формировании предсказания) и дифференцирования по параметрам (обратное распространение сигнала в сети при обучении). В данной работе мы рассмотрим современную парадигму машинного обучения и малоранговых тензорных аппроксимаций, и на конкретном модельном численном примере, соответствующем задаче автоматического распознавания рукописных цифр, продемонстрируем перспективы тензоризации глубоких ИНС.

Ключевые слова: машинное обучение, нейронная сеть, глубокая сверточная сеть, малоранговая аппроксимация.

Полный текст статьи:
Shaposhnikova_3_20_1.pdf

МОДЕЛИ И МЕТОДЫ АНАЛИЗА ТОНАЛЬНОСТИ В ТЕКСТАХ НА БАШКИРСКОМ ЯЗЫКЕ


УДК 004.048
DOI: 10.26102/2310-6018/2020.30.3.016

А.К. Сулейманов, М.А. Шарипова, О.Н. Сметанина, Е.Ю. Сазонова,
К.В. Миронов


Исследования в области автоматического извлечения мнений по-прежнему остаются актуальными. В статье представлено формальное описание термина мнение, постановки задач в зависимости от определяемых свойств мнения. Описаны проблемы решения задачи анализа тональности текста, подходы к ее решению и готовые программные реализации. Приведены имеющиеся корпусы текстов на башкирском языке, а также постановка задачи анализа тональности в текстах на башкирском языке. Рассмотрена методика ее решения, включающая алгоритм разметки текста, методы предобработки, выбора признаков классификации, методы классификации, приведены результаты эксперимента с целью выбора наиболее эффективного метода классификации для программной реализации с учетом метрик качеств. Полученные в работе результаты и разработанное программное решение на основе SVM со стохастическим градиентным спуском, продемонстрировавшим наиболее высокие показатели в критериях точности, полноты и F-меры, могут быть использованы для оценки тональности текстов новостных сайтов на башкирском языке.

Ключевые слова: анализ тональности текста, компьютерная лингвистика, машинное обучение, признаки классификации, гибридный подход, метод опорных векторов, случайный лес.

Полный текст статьи:
SuleimanovSoavtors_3_20_1.pdf

ИССЛЕДОВАНИЕ ЗАДАЧИ КЛАССИФИКАЦИИ ПУБЛИКАЦИЙ СОЦИАЛЬНЫХ СЕТЕЙ НА ПРЕДМЕТ ВЫЯВЛЕНИЯ ПОЛОЖИТЕЛЬНОГО ОТНОШЕНИЯ


УДК 004.048
DOI: 10.26102/2310-6018/2020.30.3.014

М.А. Сазонов, С.В. Шекшуев


В статье рассматривается актуальность решения класса задач, связанных с анализом публикационной активности пользователей социальных сетей. Приводится анализ существующих подходов к выявлению общественного мнения к публикациям в социальных сетях, в котором обосновывается превалирование методов, основанных на анализе тональности текстов. Приводятся недостатки указанных методов, снижающие эффективность процесса оценивания общественного мнения относительно публикационной активности пользователей социальных сетей. Выдвигается предположение о возможности использования метаданных сообщений без необходимости проведения процедуры анализа тональности текста для устранения указанной проблемы. Определяются первичные и производные показатели сообщений в социальных сетях, получаемые из совокупности метаданных. Рассматриваются подходы к решению задачи бинарной классификации на основе указанных показателей, как на базе статистических методов, так и с использованием методов машинного обучения. Делается предположение о приемлемой точности класса моделей на основе машинного обучения, обеспечивающих решение указанной задачи. Предлагается модель машинного обучения на основе случайного леса для решения задачи классификации положительного отношения к публикациям в социальных сетях, основанная на анализе первичных и производных показателей сообщений.

Ключевые слова: социальная сеть, данные, показатели социальных сетей, машинное обучение, случайный лес.

Полный текст статьи:
SazonovShekshuev_3_20_1.pdf

СТРУКТУРИЗАЦИЯ ЭКОЛОГИЧЕСКОЙ ИНФОРМАЦИИ С ПРИМЕНЕНИЕМ ГЕОИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ


УДК 004.9
DOI: 10.26102/2310-6018/2019.27.4.044

К.А. Федутинов


В статье рассматриваются вопросы разработки управленческих решений по улучшению состояния окружающей среды на основе внедрения геоинформационных технологий, включающих методы оценки и прогнозирования экологической ситуации на основе мониторинговых подходов. Развитие технологий обработки больших данных определило тенденции широкого внедрения систем мониторинга, функционирующих в реальном времени. В связи с этим, задачу мониторинга природных объектов предлагается решать как задачу определения и контроля свойств и состояний сложного объекта в режиме реального времени и активного взаимодействия с окружающей средой, а также выработки управленческих решений и рекомендаций. В качестве математического аппарата для структуризация экологической информации предлагается использовать нейронную сеть Fuzzy ART, хорошо зарекомендовавшую себя при обработке данных в режиме реального времени. Для визуализации получаемой информации и интеграции результатов работы сети сети Fuzzy ART в геоинформационную систему предлагается использовать Python-библиотеку Folium, предназначенную для графического отображения географических данных, и содержащую всю необходимую картографическую информацию. С помощью Folium результаты структуризации экологических данных можно изображать непосредственно на Google-картах, что дает возможность при увеличении масштаба карты визуально определять границы кластеров и возможные буферные зоны.

Ключевые слова: нейронная сеть, кластеризация, машинное обучение, теория адаптивного резонанса, сеть Fuzzy ART, ГИС-система.

Полный текст статьи:
Fedutinov_4_19_1.pdf

РАЗРАБОТКА МЕТОДА САМОАДАПТАЦИИ ПРИКЛАДНОЙ ПРОГРАММНОЙ СИСТЕМЫ НА ОСНОВЕ ТЕХНОЛОГИИ МАШИННОГО ОБУЧЕНИЯ


УДК 004.4
DOI: 10.26102/2310-6018/2019.27.4.021

А.М. Бершадский, А.С. Бождай, Ю.И. Евсеева, А.А. Гудков


В статье рассмотрены вопросы разработки метода самоадаптации прикладных программных систем на основе технологии машинного обучения. Рассмотрены различия между Model-Based и Model-Free подходами в обучении с подкреплением, обоснован выбор Model-Based подхода для создания метода самоадаптации программного обеспечения. Рассмотрено определение расширенного марковского процесса принятия решений, учитывающего роль ситуации в ходе самоадаптации программы. Предложена математическая модель пространства состояний программной системы, основанная на гиперграфовой формализации модели характеристик. На основе расширенного определения марковского процесса принятия решений, предложенной модели пространства состояний системы и концепции Model-Based подхода к машинному обучению с подкреплением разработан новый метод самоадаптации программного обеспечения, учитывающий влияние действий, производимых системой, на состояние окружающей среды. Приведен практический пример использования метода.

Ключевые слова: самоадаптивные программные системы, машинное обучение, обучение с подкреплением, искусственный интеллект.

Полный текст статьи:
BershadskySoavtors_4_19_1.pdf

ПОСТРОЕНИЕ РЕШАЮЩИХ ПРАВИЛ С ПОМОЩЬЮ НЕЙРОННОЙ СЕТИ ARTMAP


УДК 004.032.26
DOI: 10.26102/2310-6018/2019.26.3.029

И.Л. Каширина, К.А. Федутинов


В статье рассматривается нейросетевая архитектура ARTMAP, совместимая с символическим представлением, основанным на IF- THEN правилах. В частности, знания, полученные в процессе обучения сети ARTMAP, могут быть трансформированы в компактный набор решающих правил для классификации исходных данных, которые могут быть проанализированы экспертами предметной области, по аналогии с интерпретируемыми методами машинного обучения, такими, как деревья решений или линейная регрессия. Аналогичным образом, знания в априорной области, представленные в форме правил IF- THEN могут быть преобразованы в нейросетевую архитектуру ARTMAP. Наличие предварительного набора правил, используемых при инициализации сети, повышает точность классификации и эффективность обучения. Исходный набор правил может быть дополнен с помощью алгоритма обучения ARTMAP. Каждое правило, сформированное в процессе обучения сети имеет коэффициент достоверности, который можно интерпретировать как его важность или полезность. Описание архитектуры, алгоритмов обучения и функционирования сети ARTMAP для извлечения правил представлено в терминах предложенной авторами ранее обобщенной модели сетей семейства АRT.

Ключевые слова: нейронная сеть, машинное обучение, теория адаптивного резонанса, ARTMAP, извлечение правил.

Полный текст статьи:
KashirinaFedutinov_3_19_1.pdf

РАСПОЗНАВАНИЕ ЭЛЕКТРОМИОГРАММЫ ПРЕДПЛЕЧЬЯ И ВЫБОР ЖЕСТОВ ДЛЯ УПРАВЛЕНИЯ ПРОТЕЗОМ


УДК 612.743, 612.817.2
doi: 10.26102/2310-6018/2019.24.1.017

Р.Ю. Будко , Н.Н. Чернов , Н.А. Будко , А.Ю. Будко


Актуальность настоящего исследования обусловлена одной из главных проблем, существующих на сегодня области построения интерфейсов человек-машина – это создание эффективной системы управления, непосредственно взаимодействующей с пользователем и внешними устройствами замещения функций (протезы, инвалидные коляски и т.д.). В связи с этим, данная работа посвящена исследованию возможности использования физиологичных жестов из повседневной жизни человека для управления протезом при сохранности предплечья не менее чем на треть. Ведущим подходом к исследованию данной проблемы является применение методов статистической обработки экспериментальных данных, цифровой обработки сигналов, алгоритмов машинного обучения и распознавания образов. Данный подход позволяет комплексно исследовать электромиограмму (ЭМГ) предплечья при совершении произвольных движений на разных уровнях реализации системы миоуправления. В статье представлены результаты исследования ЭМГ, записанной для 11 произвольных движений с группы испытуемых, описана процедура предобработки ЭМГ и выделение характерных признаков для распознавания сигнала, раскрыт способ классификации движений посредством искусственной нейронной сети на основе радиальных базисных функций (РБФ). Были выявлены восемь наиболее пригодных для классификации движений и ранжированы по точности классификации: расслабление (как нулевое движение), раскрытие кисти, кулак, сгибание кисти, супинация кисти, разгибание кисти, пронация кисти, щепоть. Материалы статьи представляют практическую ценность для построения систем, основанных на интерфейсе «человек-машина», а также для задач классификации в приложениях электрофизиологии.

Ключевые слова: электромиограмма, протез, биоуправление, интерфейс человек-машина, машинное обучение, искусственные нейронные сети .

Полный текст статьи:
BudkoSoavtori_1_19_1.pdf

РЕШЕНИЕ ЗАДАЧИ РАСПОЗНАВАНИЯ ЛИЦ С ИСПОЛЬЗОВАНИЕМ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ

УДК 004.021

Н.А. Попова, М.А. Назаров, М.В. Власов


Целью данной статьи является обобщение полученного опыта разработки и реализации нейронной сети для распознавания лиц. В основу нейронной сети входят специальные алгоритмы машинного обучения. В качестве входных данных алгоритм получает изображение с лицом одного человека или лицами нескольких людей, после чего происходит поиск всех лиц в данном изображении с использованием гистограмм направленных градиентов, ее результатом является фрагменты изображения где явно проглядываются базовые структуры лица или лиц. Для того чтобы определить уникальные черты лица, необходимо учитывать разность угла наклона лица и степень его освещенности, для этого на выделенных фрагментах применяется алгоритм оценки ориентиров для поиска 68 особых точек, которые существуют на каждом лице, полученные точки дают возможность как можно лучше отцентрировать глаза и рот для более точного кодирования. Кодирование изображения включает в себя построение точной “карты лица” состоящей из 128 измерений. На основе полученных результатов, сверточная нейронная сеть, используя алгоритм линейного классификатора SVM, может определять соответствие между разными фотографиями.

Ключевые слова: распознавание лиц, машинное обучение, гистограмма направленных градиентов, HOG, оценка ориентиров лица, аффинновые преобразования, глубокое обучение, нейронная сеть.

Полный текст статьи:
PopovaSoavtori_1_1_18.pdf