WikiDer > Без модели (обучение с подкреплением)
эта статья нужны дополнительные цитаты для проверка. (Апрель 2019) (Узнайте, как и когда удалить этот шаблон сообщения) |
Часть серии по |
Машинное обучение и сбор данных |
---|
Площадки для машинного обучения |
В обучение с подкреплением (RL), безмодельный алгоритм (в отличие от модельный one) - это алгоритм, который не использует распределение вероятностей перехода (и функция вознаграждения) связанные с Марковский процесс принятия решений (MDP) [1], который в RL представляет проблему, которую необходимо решить. Распределение вероятности перехода (или модель перехода) и функция вознаграждения часто вместе называют «моделью» среды (или MDP), отсюда и название «без модели». Безмодельный алгоритм RL можно рассматривать как «явный» методом проб и ошибок алгоритм [1]. Примером безмодельного алгоритма является Q-обучение.
Ключевые алгоритмы безмодельного обучения с подкреплением
Алгоритм | Описание | Модель | Политика | Пространство действий | Государственное пространство | Оператор |
---|---|---|---|---|---|---|
DQN | Сеть Deep Q | Без модели | Вне политики | Дискретный | Непрерывный | Q-значение |
DDPG | Глубокий детерминированный градиент политики | Без модели | Вне политики | Непрерывный | Непрерывный | Q-значение |
A3C | Асинхронный алгоритм «субъект-критик» | Без модели | По политике | Непрерывный | Непрерывный | Преимущество |
TRPO | Оптимизация политики доверенного региона | Без модели | По политике | Непрерывный | Непрерывный | Преимущество |
PPO | Проксимальная оптимизация политики | Без модели | По политике | Непрерывный | Непрерывный | Преимущество |
TD3 | Двойной отложенный глубокий детерминированный градиент политики | Без модели | Вне политики | Непрерывный | Непрерывный | Q-значение |
SAC | Мягкий Актер-Критик | Без модели | Вне политики | Непрерывный | Непрерывный | Преимущество |
использованная литература
- ^ а б Саттон, Ричард С .; Барто, Эндрю Г. (13 ноября 2018 г.). Обучение с подкреплением: введение (PDF) (Второе изд.). Книга Брэдфорда. п. 552. ISBN 0262039249. Получено 18 февраля 2019.