Содержание
- Введение 1
- Теоретические основы обучения с подкреплением 2
- - Основные понятия и компоненты обучения с подкреплением 2.1
- - Марковские процессы принятия решений (MDP) и их роль 2.2
- - Методы решения MDP: Динамическое программирование и Монте-Карло 2.3
- Современные алгоритмы обучения с подкреплением 3
- - Алгоритмы на основе функций ценности: Q-обучение и SARSA 3.1
- - Алгоритмы на основе политик: Метод градиента политики 3.2
- - Глубокое обучение с подкреплением (DRL): основы и архитектуры 3.3
- Практическое применение и анализ моделей обучения с подкреплением 4
- - Применение обучения с подкреплением в робототехнике 4.1
- - Применение обучения с подкреплением в играх 4.2
- - Оптимизация бизнес-процессов и управление ресурсами 4.3
- Анализ результатов и перспективы развития 5
- Список литературы 6