Сравнение эффективности различных методов отбора признаков для решения задачи бинарной классификации предсказания наступления беременности при проведении экстракорпорального оплодотворения
Работая с нашим сайтом, вы даете свое согласие на использование файлов cookie. Это необходимо для нормального функционирования сайта, показа целевой рекламы и анализа трафика. Статистика использования сайта отправляется в «Яндекс» и «Google»
Научный журнал Моделирование, оптимизация и информационные технологииThe scientific journal Modeling, Optimization and Information Technology
cетевое издание
issn 2310-6018

Сравнение эффективности различных методов отбора признаков для решения задачи бинарной классификации предсказания наступления беременности при проведении экстракорпорального оплодотворения

idСинотова С.Л. idЛимановская О.В. idПлаксина А.Н. idМакутина В.А.

УДК 519.683, 519-7
DOI: 10.26102/2310-6018/2020.30.3.025

  • Аннотация
  • Список литературы
  • Об авторах

Определение круга факторов, влияющих на объект исследования, является важнейшей задачей медицинских исследований. Ее решение осложняется большим числом разнообразных данных, включающих в себя обширную анамнестическую информацию и данные клинических исследований часто сочетающимся с ограниченным количеством наблюдаемых пациентов. Данная работа посвящена сравнению результатов, полученных различными методами отбора признаков для поиска набора предикторов, на основе которого создана модель с лучшим качеством прогноза, для решения задачи бинарной классификации предсказания наступления беременности при проведении экстракорпорального оплодотворения (ЭКО). В качестве признаков использовались данные анамнеза женщин, представленные в бинарном виде. Выборка состояла из 68 признаков и 689 объектов. Признаки были исследованы на наличие взаимной корреляции, после чего применены методы и алгоритмы для поиска отбора значимых факторов: непараметрические критерии, интервальная оценка долей, Z-критерий для разности двух долей, взаимная информация, алгоритмы RFECV, ADD-DELL, Relief, алгоритмы, основанные на важности перестановок (Boruta, Permutation Importance, PIMP), алгоритмы отбора признаков при помощи модели (lasso, random forest). Для сравнения качества отобранных наборов признаков построены различные классификаторы, посчитана их метрика AUC и сложность модели. Все модели имеют высокое качество предсказания (AUC выше 95%). Лучшие из них построены на признаках, отобранных с помощью непараметрических критериев, отбора при помощи модели (lasso-регрессия), алгоритмов Boruta, Permutation Importance, RFECV, ReliefF. Оптимальным набором предикторов был выбран набор, состоящий из 30 бинарных признаков, полученный алгоритмом Boruta, из-за меньшей сложности модели при сравнительно высоком качестве (AUC модели 0,983). К значимым признакам отнесены: данные о наличии беременностей в анамнезе в целом, о внематочных и замерших беременностях, самостоятельных и срочных родах, абортах на ранних сроках в частности; гипертония, ишемия, инсульт, тромбозы, язвы, ожирение, сахарный диабет у ближайших родственников; проведение гормонального лечения в настоящее время, не связанного с процедурой ЭКО; аллергия; вредные профессиональные факторы; наличие нормальной продолжительности и стабильности менструального цикла без приема медицинских препаратов; гистероскопия, лапароскопия и лапаротомия в анамнезе; проведение резекций любого органа в мочеполовой системе; первая ли попытка ЭКО, наличие любых хирургических вмешательств, заболеваний мочеполовой системы; возраст и ИМТ пациентки; отсутствие хронических заболеваний; наличие диффузной фиброзно-кистозной мастопатии, гипотиреоза.

1. van Loendersloot L.L., van Wely M., Limpens J., Bossuyt P.M., Repping S., van der Veen F. Predictive factors in in vitro fertilization (IVF): a systematic review and meta-analysis. Hum Reprod Update. 2010;16(6):577–589. DOI: 10.1093/humupd/dmq015

2. Atasever M., Namlı Kalem M., Hatırnaz Ş., Hatırnaz E., Kalem Z., Kalaylıoğlu Z. Factors affecting clinical pregnancy rates after IUI for the treatment of unexplained infertility and mild male subfertility. J Turk Ger Gynecol Assoc. 2016;17:134–138. DOI: 10.5152/jtgga.2016.16056

3. Vaegter K.K., Lakic T.G., Olovsson M., Berglund L., Brodin T., Holte J. Which factors are most predictive for live birth after in vitro fertilization and intracytoplasmic sperm injection (IVF/ICSI) treatments? Analysis of 100 prospectively recorded variables in 8,400 IVF/ICSI single-embryo transfers. Fertil Steril. 2017;107(3):641–648.e2. DOI:10.1016/j.fertnstert.2016.12.005

4. Vogiatzi, P., Pouliakis, A., Siristatidis, C. An artificial neural network for the prediction of assisted reproduction outcome. J Assist Reprod Genet. 2019;36:1441–1448. DOI: 10.1007/s10815-019-01498-7

5. Ruey-Shiang Guh, Tsung-Chieh Jackson Wu, Shao-Ping Weng. Integrating genetic algorithm and decision tree learning for assistance in predicting in vitro fertilization outcomes. Expert Systems with Applications. 2011;38(4):4437–4449. DOI: 10.1016/j.eswa.2010.09.112

6. Hassan M.R., Al-Insaif S., Hossain M.I., Kamruzzaman J. A machine learning approach for prediction of pregnancy outcome following IVF treatment. Neural Comput & Applic. 2020;32:2283–2297. DOI: 10.1007/s00521-018-3693-9

7. Hafiz P., Nematollahi M., Boostani R., Namavar Jahromi B. Predicting Implantation Outcome of In Vitro Fertilization and Intracytoplasmic Sperm Injection Using Data Mining Techniques. Int J Fertil Steril. 2017;11(3):184–190. DOI: 10.22074/ijfs.2017.4882

8. Raef B, Ferdousi R. A Review of Machine Learning Approaches in Assisted Reproductive Technologies. Acta Inform Med. 2019;27(3):205–211. DOI:10.5455/aim.2019.27.205-211

9. Guyon I, Elisseeff A. An introduction to variable and feature selection. J. Mach. Learn. Res. 2003;3:1157–1182.

10. Guyon, I., Weston, J., Barnhill, S., Vapnik V. Gene Selection for Cancer Classification using Support Vector Machines. Machine Learning. 2002;46:389–422. DOI: 10.1023/A:1012487302797

11. Saeys Y., Inza I., Larrañaga P. A review of feature selection techniques in bioinformatics. Bioinformatics. 2007;23(19):2507–2517. DOI: 10.1093/bioinformatics/btm344

12. Воронцов К. В. Лекции по методам оценивания и выбора моделей. Доступно по: http://www.ccas.ru/voron/download/Modeling.pdf (дата обращения 18.08.2020)

13. Altmann A., Toloşi L., Sander O., Lengauer T. Permutation importance: a corrected feature importance measure. Bioinformatics. 2010;26(10):1340–1347. DOI: 10.1093/bioinformatics/btq134

14. Kenji K., Rendell A. L. The feature selection problem: traditional methods and a new algorithm. AAAI. 1992;129–134

15. Kursa, M., Rudnicki. Feature Selection with the Boruta Package. Journal of Statistical Software. 2010;36(11):1–13. DOI: 10.18637/jss.v036.i11

16. Mazaheri V., Khodadadi H. Heart arrhythmia diagnosis based on the combination of morphological, frequency and nonlinear features of ECG signals and metaheuristic feature selection algorithm. Expert Systems with Applications. 2020;161:113697. DOI: 10.1016/j.eswa.2020.113697

17. Faris H., Mafarja M.M., Heidari A.A., Aljarah I., Al-Zoubi A.M., Mirjalili S., Fujita H. An efficient binary Salp Swarm Algorithm with crossover scheme for feature selection problems. Knowledge-Based Systems. 2018:154;43–67. DOI: 10.1016/j.knosys.2018.05.009

18. He H., Bai Y., Garcia E.A., Li S. ADASYN: Adaptive synthetic sampling approach for imbalanced learning. 2008 IEEE International Joint Conference on Neural Networks (IEEE World Congress on Computational Intelligence). 2008;1322–1328. DOI: 10.1109/IJCNN.2008.4633969

19. Lemaître G., Nogueira F., Aridas C.K. Imbalanced-learn: Imbalanced-learn: A python toolbox to tackle the curse of imbalanced datasets in machine learning. JMLR. 2017;18(17):1−5.

20. Гланц С. Медико-биологическая статистика. Пер. с англ. М.: Практика;1998.

21. Rothman K.J. A Show of Confidence. N Engl J Med. 1978;299(24):1362−1363. DOI: 10.1056/NEJM197812142992410

22. Das A.K., Kumar S., Jain S., Goswami S., Chakrabarti A., Chakraborty B. An informationtheoretic graph-based approach for feature selection. Sādhanā. 2020;45:11. DOI: 10.1007/s12046-019-1238-2

23. Battiti R. Using mutual information for selecting features in supervised neural net learning. IEEE Transactions on Neural Networks. 1994;5(4):537−550. DOI: 10.1109/72.298224

24. Kononenko I. Estimating attributes: Analysis and extensions of RELIEF. Lecture Notes in Computer Science (Lecture Notes in Artificial Intelligence). 1994;784:171−182.

25. Robnik-Sikonja M., Kononenko I. An adaptation of Relief for attribute estimation in regression. ICML '97: Proceedings of the Fourteenth International Conference on Machine Learning. 1997;296–304.

26. Hamon J. Optimisation combinatoire pour la sélection de variables en régression en grande dimension: Application en génétique animale. Applications [stat.AP]. Université des Sciences et Technologie de Lille - Lille I, 2013. Français. fftel-00920205

27. Реализация алгоритма RFECV в библиотеке Scikit-learn. Доступно по: https://scikitlearn.org/stable/modules/generated/sklearn.feature_selection.RFECV. html#sklearn.feature_selection.RFECV (дата обращения 18.08.2020)

28. Pedregosa F., Varoquaux G., Gramfort A., Michel V., Thirion B., Grisel O., Blondel M., Prettenhofer P., Weiss R., Dubourg V., Vanderplas J., Passos A., Cournapeau D., Brucher M., Perrot M., Duchesnay É. Scikit-learn: Machine Learning in Python. JMLR. 2011;12(85):2825−2830.

29. Натекин А. Градиентный бустинг: возможности, особенности и фишки за пределами стандартных kaggle-style задач. Moscow Data Science Meetup. 2017. Доступно по: https://www.youtube.com/watch?time_continue=746&v=cM2c47Xlqk&feature=emb_logo (дата обращения 18.08.2020)

30. Шитиков В. К., Мастицкий С. Э. Классификация, регрессия, алгоритмы Data Mining с использованием R. 2017. Доступно по: https://github.com/ranalytics/data-mining

31. Библиотека ELI5. Доступно по: https://eli5.readthedocs.io/en/latest/index.html# (дата обращения 18.08.2020)

32. Платформа для обработки данных и машинного обучения Anaconda. Доступно по: https://www.anaconda.com (дата обращения 18.08.2020)

33. Библиотека SciPy. Достапно по: https://www.scipy.org/index.html (дата обращения 18.08.2020)

34. Библиотека ReliefF. Доступно по: https://pypi.org/project/ReliefF/#description (дата обращения 18.08.2020)

35. Библиотека LightGBM. Доступно по: https://lightgbm.readthedocs.io/en/latest/index.html# (дата обращения 18.08.2020)

36. Grellier O. Feature Selection with Null Importances. Статья на Kaggle. Доступно по: https://www.kaggle.com/ogrellier/feature-selection-with-null-importances (дата обращения 18.08.2020)

37. Python-реализация метода Boruta. Доступно по: https://github.com/scikit-learncontrib/boruta_py (дата обращения 18.08.2020)

38. Библиотека NumPy. Доступно по: https://numpy.org/ (дата обращения 18.08.2020)

39. Библиотека pandas. Доступно по: https://pandas.pydata.org/ (дата обращения 18.08.2020)

40. Библиотека Matplotlib. Доступно по: https://matplotlib.org/index.html (дата обращения 18.08.2020)

41. Библиотека seaborn. Доступно по: https://seaborn.pydata.org/# (дата обращения 18.08.2020)

42. Bergstra, J., Yamins D., Cox D.D. Making a Science of Model Search: Hyperparameter Optimizationin Hundreds of Dimensions for Vision Architectures. JMLR Workshop and Conference Proceedings. 2013;28(1):115–123.

43. Гржибовский А. М. Анализ номинальных данных (независимые наблюдения). Экология человека. 2008;6:58-68.

44. Библиотека Matplotlib. Доступно по: https://matplotlib.org/index.html (дата обращения 18.08.2020)

Синотова Светлана Леонидовна

Email: sveta.volkova92@mail.ru

ORCID |

Институт фундаментального образования ФГАОУ ВО «УрФУ имени первого Президента России Б.Н. Ельцина»

Екатеринбург, Российская Федерация

Лимановская Оксана Викторовна
к.х.н.
Email: o.v.limanovskaia@urfu.ru

ORCID |

Институт фундаментального образования ФГАОУ ВО «УрФУ имени первого Президента России Б.Н. Ельцина»

Екатеринбург, Российская Федерация

Плаксина Анна Николаевна
к.м.н.
Email: burberry20@yandex.ru

ORCID |

ФГБОУ ВО «Уральский государственный медицинский университет Минздрава РФ»

Екатеринбург, Российская Федерация

Макутина Валерия Андреевна
к.б.н.
Email: makutina_v@rambler.ru

ORCID |

АО «Центр семейной медицины»

Екатеринбург, Российская Федерация

Ключевые слова: отбор признаков, задача бинарной классификации, анализ малых данных, машинное обучение, вспомогательные репродуктивные технологии

Для цитирования: Синотова С.Л. Лимановская О.В. Плаксина А.Н. Макутина В.А. Сравнение эффективности различных методов отбора признаков для решения задачи бинарной классификации предсказания наступления беременности при проведении экстракорпорального оплодотворения. Моделирование, оптимизация и информационные технологии. 2020;8(3). Доступно по: https://moit.vivt.ru/wp-content/uploads/2020/08/SinotovaSoavtors_3_20_1.pdf DOI: 10.26102/2310-6018/2020.30.3.025

1130

Полный текст статьи в PDF