В двух предыдущих статьях я косвенно затронул проблему, которую назвал проблемой «двух и более учителей»: 1. Модель функционального разделения сознания и бессознательного.
Введение 2. Модель проявления сознания или ИНС без эффекта забывания Теперь хотелось бы разобраться в этом подробнее.
Это сложная и в принципе нерешенная теоретическая проблема в области искусственный интеллект .
Я не могу ее четко сформулировать, а тем более решить.
Но я постоянно сталкиваюсь с ним в различных задачах и всегда спотыкаюсь об него.
Эти предыдущие статьи могли бы показать его важность с точки зрения понимания того, что такое сознание.
Но это всё равно лирика.
И здесь хотелось бы поговорить более технически.
Здесь я покажу, как я впервые столкнулся с этой проблемой еще в 2006 году, но сейчас точно такая же проблема отчетливо видна при решении биоинформатической задачи сворачивания РНК (об этом я также написал серию статей, в последнем есть все ссылки ).
Внешние описания этих задач существенно различаются, но в этом и прелесть — проблема возникает независимо от задачи, и кажется, есть важный аспект, который просто необходимо уметь решить, говоря об интеллектуальных методах.
Было время, когда я был фанатом этой игры Цивилизация .
Надо сказать, что первые ее версии были самыми интеллектуальными, а в версии после Civilization II: Test of Time в нее вообще можно не играть — они испортили важный интеллектуальный контент. Поэтому совсем не удивительно, что ниже я предлагаю сыграть в компьютерное исследование этой игры.
Важно отметить, что они организуют турниры по схожим сценариям, например, ICFPC 2012 с краудсорсингом и нейронными сетями во время игры в Супаплекс.
Это тоже интересная задача, но она не затрагивает проблему «двух и более учителей».
Поэтому цель этой статьи — понять, когда возникает эта проблема.
обновление.
Кажется, первые мазки получились немного сложными.
Для понимания прочитайте предыдущую статью.
Обучение с подкреплением в нейронных сетях.
Теория .
Правила игры Модельная среда представляет собой карту местности, разбитую на 276 квадратов (участков) различного типа – луг, равнина, океан, река и т.д. (всего 16 видов).
На рис.
50 показан ход моделирования.
Красный квадрат – «центр города», желтый квадрат – «поселенец», зеленый крест – «житель».
Каждый тип территории отличается количеством ресурсов, которые можно получить, обрабатывая эту территорию.
Есть три вида ресурсов - еда, металл, деньги.
В таблице указаны все классы и их характеристики.
Игра начинается с одного поселенца, который размещается в случайном месте на карте.
Задача поселенца – выбрать место для будущего города, необходимое для обработки территорий на карте.
Видимость карты для поселенца составляет 25 квадратов (радиус вокруг него 2 квадрата).
Сделав свой выбор, поселенец строит город, а сам исчезает – превращается в одного жителя города.
Город занимает площадь 9 квадратов (радиус вокруг него 1 квадрат), потенциал для выбора места переработки.
Центр города считается всегда возделываемым.
Окраину (8 квадратов) могут обрабатывать жители, по одному квадрату на жителя.
Выбор осуществляется статически в момент появления резидента.
Таким образом, сразу после строительства выбирается место для обработки.
Далее, когда на складах города накапливается определенное количество еды, появляется житель города (и встает задача выбора места переработки), а когда накапливается определенное количество металла, появляется новый поселенец (и задача стоит вопрос выбора места для нового города).
Количество еды, необходимое для появления нового жителя, зависит от размера города (количества жителей этого города).
На одного жителя нужно 20 ед. Питание на двоих - 30 ед. и т. д. Количество металла, необходимое для создания поселенца, составляет 40 единиц.
Задача — выбрать стратегию, при которой вы сможете получить больше денег за 80 ходов.
Учитель Подготовка педагога направлена на то, чтобы агент мог хоть как-то рационально вести себя в окружающей среде.
Такое рациональное поведение может быть выгодным, если ресурсы равномерно распределены по карте, а также при примерно одинаковой важности каждого ресурса.
Это происходит потому, что преподаватель учит агента оценивать каждое из 8 движений по методу взвешенной оценки альтернатив.
А именно, из 8 альтернатив для каждого ресурса находится максимальное и минимальное значение ресурсов, просуммированное по всей площади города.
Значения всех ресурсов приведены к одному масштабу (Значение_i — min/maxmin)*255, где maxmin — разница между максимальным и минимальным среди 8 альтернатив для данного ресурса.
Полученные значения являются оценками.
Проблема в том, что это такое Подготовка учителей агента может со временем измениться.
Но как? На основании чего? Собственно, желательно после победы в следующей игре в 80 ходов, т. е.
когда будет собрана большая сумма денег.
Но как это исправить? Здесь возникает проблема — как описать всю эту последовательность из 80 ходов со всеми возможными состояниями.
А оказывается, что это невозможно, нужно иметь слишком много идей.
Да и на самом деле это очень ненужно.
Оказывается, для победы нужно иметь несколько простых стратегий.
Ну, например.
В принципе, это задание можно просчитать.
если знать, что оно длится 80 ходов, если знать, при каких условиях в городе появляется новый житель и поселенец, если знать, какие типы территорий существуют и сколько там ресурсов.
в каждом из них, а главное, по какому параметру оценивается успех.
Тогда при всей остальной неопределенности задача строго рассчитывается и как минимум можно написать алгоритм, который это вычисляет. Для вырожденного случая, когда есть только два типа территорий - Океан (1/0/2) и Степь (1/1/0) - стратегия следующая: имеет смысл поставить цель города - получение поселенец (степь+степь), только тогда, когда до середины игры он сможет предоставить 2 и более поселенцев.
После 25% игры следует использовать смешанную стратегию (степь+океан), а после 50% пройденной игры увеличивать только количество золота (тип города океан+океан).
Вырождение заключается в том, что города здесь не растут, потому что.
рост продовольствия составляет всего 2 единицы, что равно его потреблению на одного жителя (напомню, что центр города обрабатывается без жителя).
В результате получаем 484 единицы.
золото.
и никакая другая стратегия не позволяет улучшить показатель.
Фактически, каждая из этих тактических стратегий представляет собой отдельную фитнес-функцию.
Вот и получается, что имея базовую тактическую стратегию, полученную от преподавателя, нужно найти параметры, которые позволят сформировать конкретную тактическую стратегию.
И меняйте эти стратегии по ходу игры.
вообще это оказывается сложно.
Упрощая, нужно понимать, что любая найденная успешная стратегия (эвристика) – это не что иное, как еще одна фитнес-функция.
Те.
это по сути еще один «учитель».
Но проблема обучения у двух или более учителей состоит в том, чтобы скоординировать две подходящие тактические стратегии в одну.
Не знаю, насколько мне удалось доходчиво описать проблему.
но напишите то, что непонятно, помогите, кто соизволит вникнуть в проблему.
В следующей части я попытаюсь описать ту же проблему в задаче о сворачивании РНК, которая уже не будет «игрушечной задачей».
Но чисто содержательно это будет сложнее, а сам тип тактических стратегий будет проще.
Моя цель — сделать из этого понятную математическую задачу, которую нельзя было бы объяснить через прикладные задачи — но она все равно немного сложна.
Я жду помощи.
Теги: #ИИ #искусственные нейронные сети #спортивное программирование
-
Как Бесплатно Попасть В Список Yahoo!
19 Oct, 24 -
Монетизация Сервиса Слайд-Хостинга
19 Oct, 24 -
Точный Таймер Corona Sdk
19 Oct, 24 -
Цтф В России
19 Oct, 24 -
Что Нового В Upsource 2018.2
19 Oct, 24