Обучение С Подкреплением Или Эволюционные Стратегии? - Оба

Привет, Хабр! Мы не часто решаемся размещать здесь переводы текстов двухлетней давности, без кода и явно академического характера – но сегодня сделаем исключение.

Надеемся, что дилемма, вынесенная в заголовок статьи, беспокоит многих наших читателей, и вы уже прочитали фундаментальный труд по эволюционным стратегиям, с которым спорит этот пост в оригинале, или прочитаете его сейчас.

Добро пожаловать коту!

Обучение с подкреплением или эволюционные стратегии? - Оба

В марте 2017 года OpenAI произвела фурор в сообществе глубокого обучения, выпустив статью « Стратегии эволюции как масштабируемая альтернатива обучению с подкреплением В этой работе описаны впечатляющие результаты в пользу того, что обучение с подкреплением (RL) не стало клином, и при обучении сложных нейронных сетей желательно пробовать другие методы.

Тогда разгорелась дискуссия относительно важности обучения с подкреплением и того, как заслуживающие статуса «must-have» технологии обучения решению задач.

Здесь я хочу сказать, что эти две технологии не следует рассматривать как конкурирующие, одна из которых явно лучше другой, наоборот, они в конечном итоге дополняют друг друга; друг друга Действительно, если немного подумать о том, что нужно творить.

общий ИИ и такие системы, которые на протяжении всего своего существования были бы способны к обучению, суждению и планированию, то мы почти наверняка придем к выводу, что потребуется то или иное комбинированное решение.

Кстати, именно к такому комбинированному решению пришла природа, наделившая в ходе эволюции млекопитающих и других высших животных сложным интеллектом.



Эреволюционные стратегии

Основной тезис статьи OpenAI заключался в том, что вместо использования обучения с подкреплением в сочетании с традиционным обратным распространением ошибки они успешно обучили нейронную сеть решению сложных задач, используя так называемую «эволюционную стратегию» (ЭC).

Этот подход ЭC заключается в поддержании распределения весов по всей сети с участием нескольких агентов, работающих параллельно и использующих параметры, выбранные из этого распределения.

Каждый агент работает в своей собственной среде, и по завершении определенного количества эпизодов или стадий эпизода алгоритм возвращает совокупное вознаграждение, выраженное в виде показателя пригодности.

Учитывая это значение, распределение параметров можно сместить в сторону более успешных агентов, лишая менее успешных.

Повторив такую операцию миллионы раз с участием сотен агентов, можно перенести распределение весов в пространство, которое позволит агентам сформулировать качественную политику решения поставленной перед ними задачи.

Действительно, результаты, представленные в статье, впечатляют: показано, что если параллельно запустить тысячу агентов, то антропоморфному передвижению на двух ногах можно научиться менее чем за полчаса (при этом даже самые продвинутые методы RL требуют затрат более чем один час на это).

Для более подробной информации рекомендую прочитать отличный быстрый от авторов эксперимента, а также научная статья .



Обучение с подкреплением или эволюционные стратегии? - Оба

Различные стратегии обучения антропоморфной прямохождению, изученные с помощью метода ЭC OpenAI.

Черный ящик

Большим преимуществом этого метода является то, что его можно легко распараллелить.

В то время как методы RL, такие как A3C, требуют обмена информацией между рабочими потоками и сервером параметров, ЭC нужны только оценки пригодности и обобщенная информация о распределении параметров.

Именно благодаря этой простоте этот метод значительно опережает современные методы RL с точки зрения возможностей масштабирования.

Однако все это не проходит даром: вам придется оптимизировать сеть по принципу черного ящика.

В данном случае «черный ящик» означает, что при обучении полностью игнорируется внутренняя структура сети, а используется только общий результат (награда за эпизод), и от него зависит, будут ли веса конкретной сети быть унаследованы последующими поколениями.

В ситуациях, когда мы не получаем много обратной связи от среды (а во многих традиционных задачах RL поток вознаграждений очень скуден), проблема превращается из «частично черного ящика» в «полностью черный ящик».

В этом случае можно существенно повысить производительность, поэтому такой компромисс, конечно, оправдан.

«Кому нужны градиенты, если они и так безнадежно шумныЭ» - это общее мнение.

Однако в ситуациях, когда обратная связь более активна, дела у ЭS начинают идти не так, как надо.

Команда OpenAI описывает, как простая классификационная сеть MNIST была обучена с использованием ЭC, и на этот раз обучение было в 1000 раз медленнее.

Дело в том, что сигнал градиента при классификации изображений чрезвычайно информативен относительно того, как научить сеть лучшей классификации.

Таким образом, проблема заключается не столько в методе RL, сколько в редком вознаграждении в средах, создающих шумные градиенты.



Природное решение

Если мы попытаемся учиться на примере природы, думая о способах развития ИИ, то в некоторых случаях ИИ можно рассматривать как проблемно-ориентированный подход .

В конце концов, природа действует в рамках ограничений, которых у компьютерщиков просто нет. Существует мнение, что чисто теоретический подход к решению той или иной проблемы может дать более эффективные решения, чем эмпирические альтернативы.

Однако я все же считаю целесообразным проверить, как динамическая система, действующая при определенных ограничениях (Земля), породила агентов (животных, особенно млекопитающих), способных к гибкому и сложному поведению.

Хотя некоторые из этих ограничений неприменимы в моделируемых мирах науки о данных, другие вполне подходят. Рассмотрев интеллектуальное поведение млекопитающих, мы видим, что оно формируется в результате сложного взаимного влияния двух тесно взаимосвязанных процессов: учиться на опыте других И обучение в процессе работы .

Первое часто приравнивают к эволюции, обусловленной естественным отбором, но здесь я использую более широкий термин, чтобы принять во внимание эпигенетику, микробиомы и другие механизмы, которые позволяют обмениваться опытом между генетически неродственными организмами.

Второй процесс, обучение на опыте, представляет собой всю информацию, которую животное успевает усвоить в течение своей жизни, и эта информация непосредственно определяется взаимодействием этого животного с внешним миром.

В эту категорию входит все: от обучения распознаванию объектов до овладения общением, присущим процессу обучения.

Грубо говоря, эти два процесса, происходящие в природе, можно сравнить с двумя вариантами оптимизации нейронных сетей.

«Эволюционные стратегии, где информация о градиентах используется для обновления информации об организме, подобны обучению на чужом опыте.

Аналогично градиентные методы, когда получение того или иного опыта приводит к тому или иному изменению поведения агента, сравнимы с обучением на собственном опыте.

Если мы подумаем о типах разумного поведения или способностей, которые каждый из этих двух подходов развивает у животных, сравнение станет более явным.

В обоих случаях «эволюционные методы» способствуют изучению реактивного поведения, позволяющего развить определенную приспособленность (достаточную для выживания).

Обучение ходьбе или побегу из неволи во многих случаях эквивалентно более «инстинктивному» поведению, которое «запрограммировано» у многих животных на генетическом уровне.

Кроме того, этот пример подтверждает, что эволюционные методы применимы в тех случаях, когда сигнал вознаграждения встречается крайне редко (например, факт успешного воспитания ребенка).

В таком случае невозможно соотнести вознаграждение с каким-либо конкретным набором действий, которые могли быть совершены за много лет до наступления данного факта.

С другой стороны, если мы рассмотрим случай, когда ЭC терпит неудачу, а именно классификацию изображений, результаты будут удивительно сопоставимы с результатами обучения животных, достигнутыми в бесчисленных поведенческих психологических экспериментах, проводимых на протяжении более 100 лет.

Обучение у животных

Методы, используемые в обучении с подкреплением, во многих случаях взяты непосредственно из психологической литературы по психологии.

оперантного кондиционирования , а оперантное обусловливание изучалось с использованием психологии животных.

Кстати, Ричард Саттон, один из двух основоположников обучения с подкреплением, имеет степень бакалавра психологии.

В контексте оперантного обусловливания животные учатся связывать вознаграждение или наказание с определенными моделями поведения.

Дрессировщики и исследователи могут так или иначе манипулировать этой ассоциацией вознаграждения, провоцируя животных на демонстрацию интеллекта или определенного поведения.

Однако оперантное обусловливание, используемое в исследованиях на животных, представляет собой не что иное, как более выраженную форму того же обусловливания, на основе которого животные учатся на протяжении всей своей жизни.

Мы постоянно получаем сигналы положительного подкрепления из окружающей среды и соответствующим образом корректируем свое поведение.

Фактически, многие нейробиологи и когнитивисты полагают, что люди и другие животные на самом деле действуют на еще более высоком уровне и постоянно учатся предсказывать результат своего поведения в будущих ситуациях на основе потенциальных вознаграждений.

Центральная роль прогнозирования в обучении на основе опыта существенно меняет описанную выше динамику.

Сигнал, который раньше считался очень разреженным (эпизодическое вознаграждение), оказывается очень плотным.

Теоретически ситуация выглядит примерно так: в любой момент времени мозг млекопитающего просчитывает результаты на основе сложного потока сенсорных стимулов и действий, а животное просто погружается в этот поток.

В этом случае итоговое поведение животного дает сильный сигнал, который необходимо использовать для корректировки прогнозов и развития поведения.

Мозг использует все эти сигналы, чтобы оптимизировать прогнозы (и, соответственно, качество предпринимаемых действий) в будущем.

Обзор этого подхода дан в прекрасной книге « Серфинг неопределенности Когнитивист и философ Нди Кларк.

Если экстраполировать подобные рассуждения на обучение искусственных агентов, то обнаружится фундаментальный недостаток обучения с подкреплением: сигнал, используемый в этой парадигме, безнадежно слаб по сравнению с тем, каким он мог бы (или должен быть).

В случаях, когда невозможно повысить насыщенность сигнала (возможно, потому, что он по своей сути слаб или связан с низким уровнем реактивности), вероятно, лучше отдать предпочтение хорошо распараллеливаемому методу обучения, например, ЭC.

Более глубокое обучение нейронных сетей

Опираясь на принципы высшей нейронной активности, присущие мозгу млекопитающих, который постоянно занят предсказаниями, в последнее время были достигнуты успехи в обучении с подкреплением, которое теперь учитывает важность таких предсказаний.

Могу сразу порекомендовать вам две похожие работы:

В обеих этих статьях авторы дополняют типичную политику своих нейронных сетей по умолчанию результатами прогнозирования состояния окружающей среды в будущем.

В первой статье прогнозирование применяется к множеству измеряемых переменных, а во второй прогнозирование применяется к изменениям в окружающей среде и поведению агента как такового.

В обоих случаях разреженный сигнал, связанный с положительным подкреплением, становится намного богаче и информативнее, что позволяет как ускорить обучение, так и освоить более сложное поведение.

Такие улучшения доступны только с методами, использующими градиентный сигнал, а не с методами, работающими по принципу «черного ящика», такими как ЭC. Кроме того, обучение на основе опыта и градиентные методы гораздо эффективнее.

Даже в тех случаях, когда ту или иную проблему с помощью метода ЭC удавалось изучить быстрее, чем с помощью обучения с подкреплением, выигрыш достигался за счет того, что стратегия ЭC задействовала во много раз больше данных, чем при использовании RL. Размышляя в данном случае о принципах обучения у животных, отметим, что результат обучения на чужом примере проявляется через многие поколения, тогда как иногда достаточно одного пережитого им самого события, чтобы животное усвоило урок навсегда.

Пока нравится обучение без примеров Хотя он не совсем вписывается в традиционные градиентные методы, он гораздо более понятен, чем ЭC. Существуют, например, такие подходы, как нейронный эпизодический контроль , где значения Q сохраняются во время обучения, после чего программа проверяет их перед выполнением действий.

В результате получился градиентный метод, позволяющий научиться решать задачи гораздо быстрее, чем раньше.

В статье о нейронном эпизодическом контроле авторы упоминают гиппокамп человека, который способен сохранять информацию о событии даже после однократного опыта и, следовательно, воспроизводит Важная роль в процессе запоминания.

Такие механизмы требуют доступа к внутренней организации агента, что также по определению невозможно в парадигме ЭC.

Так почему бы не объединить их?

Вполне вероятно, что большая часть этой статьи может создать впечатление, что я защищаю методы RL. Однако я на самом деле считаю, что в долгосрочной перспективе лучшим решением будет объединить оба метода, чтобы каждый из них использовался в тех ситуациях, в которых он лучше всего подходит. Очевидно, что в случае множества реактивных политик или в ситуациях с очень редкими сигналами положительного подкрепления ЭC побеждает, особенно если в вашем распоряжении есть вычислительная мощность, на которой вы можете запустить массовое параллельное обучение.

С другой стороны, градиентные методы, использующие обучение с подкреплением или обучение с учителем, будут полезны, когда у нас есть доступ к обширной обратной связи и нам нужно научиться решать проблему быстро и с меньшим количеством данных.

Обращаясь к природе, мы обнаруживаем, что первый метод, по существу, закладывает основу для второго.

Вот почему в ходе эволюции у млекопитающих развился мозг, который позволяет им чрезвычайно эффективно учиться на сложных сигналах, поступающих из окружающей среды.

Итак, вопрос остается открытым.

Возможно, эволюционные стратегии помогут нам изобрести эффективные архитектуры обучения, которые также будут полезны для методов градиентного обучения.

Ведь решение, найденное природой, действительно очень удачное.

Теги: #Машинное обучение #Алгоритмы #Исследования и прогнозы в ИТ #искусственный интеллект #психология #обучение с подкреплением #эволюционные стратегии

Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.