АЛГОРИТМИЗАЦИЯ МУЛЬТИАГЕНТНОГО ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ В ТЕОРЕТИКО-ИГРОВЫХ ЗАДАЧАХ ПОИСКА ОПТИМАЛЬНЫХ СТРАТЕГИЙ


УДК 004.8, 519.83
DOI: 10.26102/2310-6018/2020.28.1.040

Е.С. Соколова, К.А. Разинкин


Актуальность темы статьи обусловлена растущим интересом к мультиагентному имитационному моделированию динамических систем различной физической и социальной природы. В настоящее время на первый план выходит концепция интеллектуального агента как имитационной модели поведения активного элемента в сложных ситуациях и стратегиях взаимодействия с другими активными элементами и средой для достижения цели. В общей концепции интеллектуального агента и агентных технологий имитации взаимодействия динамических объектов в направлении достижения цели предлагается метод структурно-параметрического моделирования интеллектуальных агентов и мультиагентных систем с алгоритмами идентификации и прогнозирования состояния агентов, а также программная реализация мультиагентных имитационных моделей производственных, социальных и маркетинговых систем. В этой связи актуальность темы обусловливается необходимостью повышения эффективности мультиагентного обучения с подкреплением в теоретико-игровых задачах поиска оптимальных стратегий. В статье описываются алгоритмы мультиагентного обучения с подкреплением в теоретико-игровых задачах, такие как minimax-Q, когда реализуется минимизации возможных потерь из тех, которые агенту нельзя предотвратить при развитии событий по наихудшему для него сценарию и WoLF-PHC (Win or Learn Fast – Policy Hill Climbing), реализующему политику быстрого выигрыша или быстрого обучения. Показаны достоинства и недостатки данных подходов, принципы их модернизации и возможности реализации указанных подходов в средах имитационного моделирования.

Ключевые слова: мультиагентное обучение, обучение с подкреплением, стохастические игры, стратегии равновесия.

Полный текст статьи:
SokolovaSoavtori_1_20_1.pdf