Иерархическое обучение с подкреплением: 4 недостатка подходов

Я не буду подшучивать над тем, чтобы (повторно) представить Иерархическое обучение с подкреплением (HRL) всем, кто нажал на эту статью. Предполагая необходимые базовые знания о том, почему методы HRL набирают популярность в области машинного обучения или искусственного интеллекта и их преимуществах.

В то время как методы HRL (иерархический актор-критик, структура вариантов, вариант-критик и т. д.) обеспечивают очень принципиальный, формализованный подход к решению долгосрочных задач принятия решений, здесь я хочу выделить основные минусы или недостатки таких подходов.

В качестве постоянного примера рассмотрим сценарий: "Идете на свидание в кино", где вы: "планируете посмотреть новый фильм "Матрица" (Воскресение) с свидание (или друга)'. Что влечет за собой планирование? Есть несколько высокоуровневых подцелей (или макродействий), которые необходимо выполнить, прежде чем будет достигнут конечный результат (т. е. вы будете смотреть его в кинотеатре). , например:

Найдите подходящее (театральное) место.
Запланируйте время: это влечет за собой поиск времени показа, когда оба ваших календаря свободны.
Купить билеты: какая-либо форма оплаты
Отправляйтесь на локацию: прогуляйтесь, покатайтесь на велосипеде, покатайтесь на метро и т. д.

Опять же, я не буду отвлекаться на почему выбирать методы HRL для решения таких долгосрочных задач планирования целей или выполнения действий. Давайте обсудим четыре основных недостатка с пояснением на скользящем примере:

Требование к знанию предметной области: для разработки подцелей требуются знания предметной области, специфичной для проблемы/задачи, и последующая ручная разработка. В нашем примере нам нужно знать расположение театров, жесткие ограничения расписания, покупки билетов и т. д. Разработка иерархической подполитики не может исключать знания конкретных ограничений этой задачи.
Алгоритмическая сложность: даже с нашими знаниями в предметной области[1]для задачи необходимо определить конкретные подцели, а также подполитики для этих подцелей. быть изученным. Чтобы прояснить ситуацию, для «похода в кино» нам нужно было определить четыре подцели (исходя из наших знаний в предметной области), спроектировать и изучить каждую подцель (с каждой подцелью (вероятно) уникальное вознаграждение и ограничения на завершение) .
Вычислительная (комбинаторная) сложность: в сфере HRL подполитики для подцелей обычно изучаются с помощью комбинации примитивных действий (например, , «примитивы движения/навигации» могут быть «поворот [влево|вправо]», «перемещение [вперед|назад]»; «примитивы взаимодействия» могут быть pick up(<obj>), toggle(<obj>), put(<obj>) и т. д.). Как вы понимаете, комбинаторный взрыв таких примитивов может быть очень легко неосуществим. Чтобы лучше понять этот феномен, представьте себе простую задачу: взять бокал со стола и поставить его на стол. Рассмотрите возможность планирования этой задачи с использованием гранулярных примитивов — вы можете использовать правую или левую руку; вы можете использовать любые два пальца любой руки; вы можете ссутулиться, или встать прямо, или дотянуться до стакана волнистым движением руки. Вы получаете картину.
Эффективность или оптимальность. Наконец, подходы HRL не могут гарантировать оптимальность общей агрегированной политики. Используя наш скользящий пример, даже если обученная политика HRL обеспечивает выполнение задачи, это может быть не самый эффективный способ сделать это. Каждая из подцелей может иметь более эффективный способ достижения цели. Для интуиции возьмем простой случай: рассмотрим подцель 4 Go To (Location). Представьте, что у вас есть театр прямо у вас дома, и вы можете добраться туда пешком за 10 минут. Тем не менее, также можно (программно) вызвать поездку Uber, которая занимает 8 минут, затем 2–5 минут (в зависимости от светофора), и это также стоит вам около 10 долларов (если вы щедры). , может быть, 12 долларов с чаевыми). Хотя оба подхода приводят к одной и той же конечной цели, на самом деле я могу поспорить на 9 долларов, что вы каждый раз будете выбирать первый вариант. Для более технического чтения почитайте Колмогоровские комплексы — там есть интересные исследования эффективности принятия решений и тому подобное.

Подводя итог, я хотел разъяснить некоторые из минусов, связанных с подходами HRL, простым языком, не используя обычный (значительный) технический жаргон этих подходов. Надеюсь, вам понравилось ваше чтение, ваши лайки, безусловно, дадут мне заряд дофамина, чтобы написать больше на эту тему.

Иерархическое обучение с подкреплением: 4 недостатка подходов

Вопросы по теме