Новейшие системы искусственного интеллекта начинают тренироваться, ничего не зная об игре, и за считанные часы вырастают до уровня мирового уровня.
Но исследователям трудно применять такие системы за пределами игрового мира.
До недавнего времени машины, которые могли посрамить чемпионов-людей, по крайней мере, пользовались уважением, используя человеческий опыт для обучения играм.
Чтобы победить Гарри Каспарова в шахматы в 1997 году, инженеры IBM использовали многовековую шахматную мудрость для создания компьютера Deep Blue. В 2016 году программа AlphaGo проекта Google DeepMind раздавленный чемпион Ли Седоль по древней настольной игре Го, обрабатывающий миллионы игровых позиций, собранных в результате десятков тысяч игр между людьми.
Но теперь исследователи ИИ переосмысливают, как их боты должны усваивать человеческие знания.
Нынешнюю тенденцию можно охарактеризовать как «и бог с ним».
В октябре прошлого года команда DeepMind опубликовано подробности о новой игровой системе го AlphaGo Zero, которая вообще не изучала человеческие игры.
Она начала с правил игры и играла сама с собой.
Первые ходы были совершенно случайными.
После каждой игры она получала новые знания о том, что привело к победе, а что нет. После этих матчей AlphaGo Zero столкнулся с теперь уже сверхчеловеческой версией AlphaGo, которая победила Ли Седоля.
Первый обыграл второго со счетом 100:0.
Ли Седол, 18-кратный чемпион мира по го, матч против AlphaGo в 2016 году.
Команда продолжила исследования и создала следующего великого игрока в семействе AlphaGo, на этот раз названного просто AlphaZero. В работа , опубликованном на arxiv.org в декабре, исследователи DeepMind рассказали, как AlphaZero, снова начав с нуля, тренировалась и победила AlphaGo Zero — то есть она победила бота, который победил бота, который победил лучшего в мире игрока в го.
И когда ей дали правила японских шахмат сёги AlphaZero быстро обучилась и сумела превзойти лучшие из своих специально созданных алгоритмов для этой игры.
Экспертов удивил агрессивный и непривычный стиль игры программы.
«Мне всегда было интересно, что было бы, если бы на Землю пришли высшие существа и показали нам, как они играют в шахматы», — сказал датский гроссмейстер Петер Хайне Нильсен в интервью Воздушные силы.
- Теперь я знаю".
В прошлом году мы видели, как другие боты из других миров проявили себя в таких разнообразных областях, как безлимитный покер и Dota 2, популярная онлайн-игра, в которой фэнтезийные герои сражаются за контроль над другим миром.
Естественно, амбиции компаний, инвестирующих в подобные системы, выходят за рамки доминирования в игровых чемпионатах.
Исследовательские группы, такие как DeepMind, надеются применить аналогичные методы для решения реальных проблем — создания сверхпроводников, работающих при комнатной температуре, или понимания того, как оригами сворачивает белки в молекулы, пригодные для использования в лекарствах.
И, конечно же, многие практики надеются создать искусственный интеллект общего назначения — неясная, но увлекательная цель — дать машинам возможность думать, как люди, и гибко подходить к различным проблемам.
Однако, несмотря на все инвестиции, до сих пор неясно, насколько далеко современные технологии смогут выйти за рамки игровой доски.
«Я не уверен, что идеи, лежащие в основе AlphaZero, можно так легко обобщить», говорит Педро Домингос, ученый-компьютерщик из Вашингтонского университета.
«Игры — очень, очень необычная тема».
Идеальные цели для несовершенного мира
Одной из характеристик, общих для многих игр, включая шахматы и го, является то, что игроки всегда могут видеть все фигуры по обе стороны доски.Каждый игрок обладает так называемой «полной информацией» о состоянии игры.
Какой бы сложной ни была игра, вам просто нужно подумать о своем текущем положении.
Многие ситуации в реальном мире нельзя сравнивать с этим.
Представьте, что мы просим компьютер поставить диагноз или провести деловые переговоры.
«Большинство стратегических взаимодействий в реальном мире связаны со скрытой информацией», — говорит Ноам Браун , аспирант информатики Университета Карнеги Мэлоун.
«Я думаю, что большая часть сообщества ИИ игнорирует этот факт».
Покер, на котором специализируется Браун, предлагает другую задачу.
Вы не видите карты противника.
Но и здесь машины, которые учатся, играя сами с собой, уже достигают сверхчеловеческих высот. В январе 2017 года программа Libratus, созданная Брауном и его куратором Томас Сэндхольм , бить четыре профессиональных безлимитных игрока Техасский Холдем , выиграв 1,7 миллиона долларов по итогам 20-дневного чемпионата.
Еще более разочаровывающей игрой с неполной информацией является StarCraft II, еще одна многопользовательская онлайн-игра с огромной базой фанатов.
Игроки выбирают команду, создают армию и ведут войну в научно-фантастическом мире.
Но ландшафт окутан туманом войны, из-за чего игроки видят только те части территории, где расположены их собственные войска или постройки.
Даже решение об исследовании территории противника полно неопределенности.
Это единственная игра, в которой ИИ пока не может выиграть.
Препятствиями являются огромное количество вариантов ходов в игре, которое обычно превышает тысячу, и скорость принятия решений.
Каждому игроку – человеку или машине – приходится переживать огромное количество возможных сценариев при каждом щелчке мыши.
Пока что ИИ не может конкурировать на равных с человеком в этой области.
Но это цель развития ИИ.
В августе 2017 года DeepMind сотрудничал с Blizzard Entertainment, компанией, стоящей за StarCraft II, для создания инструментов, которые, по их словам, откроют игру для исследователей искусственного интеллекта.
Несмотря на всю сложность, цель StarCraft II проста: уничтожить врага.
Это роднит ее с шахматами, го, покером, Dota 2 и практически с любой другой игрой.
Игры можно выиграть.
С точки зрения алгоритма, задачи должны иметь «целевую функцию», цель, к которой нужно стремиться.
Когда AlphaZero играла в шахматы, это было несложно.
Поражение оценивалось в -1, ничья в 0, победа в +1. Целевая функция AlphaZero — максимизация очков.
Цель покерного бота очень проста: выиграть кучу денег.
Компьютерные ходунки могут тренировать сложное поведение, например, ходьбу по незнакомой местности.
Ситуации в реальной жизни не так просты.
Например, автомобиль-робот требует более тонкого формирования целевой функции — что-то похожее на тщательный выбор слов при описании своего желания джинну.
Например: быстро доставить пассажира по нужному адресу, соблюдая все законы и соответственно взвешивая стоимость человеческой жизни в опасных и неопределённых ситуациях.
Домингос говорит, что создание исследователями целевой функции — это «одна из вещей, которая отличает великого исследователя машинного обучения от среднего».
Возьмем, к примеру, Тая, чат-бота для Twitter, которого Microsoft выпустила 23 марта 2016 года.
Его целью было вовлечь людей в общение, и именно это он и сделал.
«К сожалению, Тэй обнаружил, — сказал Домингос, — что лучший способ максимизировать вовлеченность людей — это выбрасывать расовые оскорбления».
Его выключен всего через день после начала работы.
Ваш самый большой враг
Некоторые вещи не меняются.Стратегии, используемые сегодня преобладающими игровыми ботами, были изобретены много десятилетий назад. «Это такой взрыв из прошлого — они просто дают ему больше вычислительной мощности», — говорит Дэвид Дувено , ученый-компьютерщик из Токийского университета.
Стратегии часто основаны на обучении с подкреплением и методах свободного выгула.
Вместо микроуправления, настройки мельчайших деталей алгоритма, инженеры позволяют машине изучать окружающую среду и учиться достигать целей самостоятельно, методом проб и ошибок.
До AlphaGo и ее преемников команда DeepMind добилась своего первого большого успеха, который попал в заголовки газет, в 2013 году, когда она использовала обучение с подкреплением для создания бота.
научился играть семь игр для Atari 2600, три из них — экспертного уровня.
Этот прогресс продолжается.
5 февраля DeepMind выпустила ИМПАЛА – Система искусственного интеллекта, способная изучить 57 игр на Atari 2600 и еще 30 уровней, созданных DeepMind в трех измерениях.
В них игрок действует в различных средах и достигает таких целей, как открытие дверей или сбор грибов.
IMPALA, казалось, передавала знания между задачами — время, потраченное на одну игру, улучшало производительность других.
Но в более широкой категории обучения с подкреплением, настольных и многопользовательских игр можно применить более конкретный подход. Их изучение может принять форму игры с самим собой, где алгоритм достигает стратегического превосходства, неоднократно конкурируя с близкой копией самого себя.
Этой идее много десятилетий.
В 1950-е годы инженер IBM Артур Сэмюэл созданный программа для шашек, которая частично научилась играть, соревнуясь сама с собой.
В 1990-х годах Джеральд Тезауро из IBM создал программу для игры в нарды, которая противопоставила алгоритм самому себе.
Программа достигла уровня человека-эксперта, одновременно изобретая необычные, но эффективные игровые стратегии.
Во все большем количестве игр алгоритмам предоставляется равный противник, которого они могут сыграть против самих себя.
Это означает, что изменение стратегии игры приводит к другому результату, благодаря чему алгоритм получает мгновенную обратную связь.
«Каждый раз, когда вы чему-то учитесь, каждый раз, когда вы обнаруживаете что-то маленькое, ваш оппонент немедленно начинает использовать это против вас», — говорит Илья Суцкевер , директор по исследованиям OpenAI, некоммерческой организации, которую он основал вместе с Илоном Маском, занимающейся разработкой и распространением технологий искусственного интеллекта и направлением их развития в безопасном направлении.
В августе 2017 года организация выпустил бота для Dota 2, который управлял одним из персонажей игры, Shadow Fiend — демоном-некромантом, — победившим лучших игроков мира в боях один на один.
Другой проект OpenAI сталкивает человеческие симуляции друг против друга.
сумо , в результате чего они учатся боям и трюкам.
Когда играешь сам с собой, «нет времени отдыхать, нужно постоянно совершенствоваться», — сказал Суцкевер.
ОпенАИ
Но старая идея игры с самим собой — это лишь один ингредиент ботов, которые доминируют сегодня; им также нужен способ превратить игровой опыт в более глубокое понимание предмета.В шахматах, го и видеоиграх вроде Dota 2 больше перестановок, чем атомов во Вселенной.
Даже если мы подождем несколько человеческих жизней, пока ИИ сражается со своей тенью на виртуальных аренах, машина не сможет реализовать каждый сценарий, записать его в специальную таблицу и обратиться к ней, когда подобная ситуация повторится.
Чтобы остаться на плаву в этом море возможностей, «нужно обобщить и выделить суть», — говорит Питер Аббил , учёный-компьютерщик из Калифорнийского университета в Беркли.
IBM Deep Blue сделала это, используя встроенную формулу игры в шахматы.
Вооруженная способностью оценивать силу игровых позиций, которых она еще не видела, программа смогла реализовать ходы и стратегии, которые увеличили ее шансы на победу.
В последние годы новые технологии позволили вообще отказаться от такой формулы.
«Теперь внезапно все это покрывает глубокая паутина», — сказал Аббил.
Глубокие нейронные сети, популярность которых в последние годы резко возросла, построены из слоев искусственных «нейронов».
наложенные друг на друга слоями как стопка блинов.
Когда нейрон в одном из слоев активируется, он посылает сигналы на более высокий слой, а там они передаются еще выше и так далее.
Регулируя связи между слоями, эти сети удивительно хорошо превращают входные данные в связанные выходные данные, даже если связь между ними кажется абстрактной.
Дайте им фразу на английском языке, и они попрактикуются в переводе ее на турецкий.
Дайте им фотографии приютов для животных, и они смогут понять, какой из них предназначен для кошек.
Покажите им игровое поле, и они поймут вероятность победы.
Но обычно этим сетям сначала необходимо предоставить списки помеченных примеров, на которых можно попрактиковаться.
Вот почему игра с самим собой и глубокие нейронные сети так хорошо сочетаются друг с другом.
Самостоятельные игры создают огромное количество сценариев, а глубокая сеть имеет практически неограниченный объем обучающих данных.
И тогда нейронная сеть предлагает способ изучить опыт и закономерности, встречающиеся во время игры.
Но есть одна загвоздка.
Чтобы такие системы могли производить полезные данные, им нужна реалистичная игровая площадка.
«Все эти игры, все эти результаты были достигнуты в условиях, которые позволяли нам идеально моделировать мир», — говорит Челси Финн аспирант Беркли использует искусственный интеллект для управления роботизированными руками и интерпретации данных датчиков.
Другие области не так легко подражать.
Робомобилям, например, трудно справиться с плохой погодой или велосипедистами.
Или они могут не воспринимать необычные возможности, встречающиеся в реальном мире, например, птицу, летящую прямо к камере.
В случае с роботизированными руками, говорит Финн, первоначальные симуляции обеспечили базовую физику, которая позволила руке научиться учиться.
Но они не могут справиться с деталями прикосновения к различным поверхностям, поэтому такие задачи, как завинчивание крышки бутылки или выполнение сложной операции, требуют реального опыта.
В случае проблем, которые сложно смоделировать, игра с самим собой будет уже не так полезна.
«Существует большая разница между действительно идеальной моделью окружающей среды и выученной приблизительной моделью, особенно когда реальность действительно сложна», — писал он мне.
Йошуа Бенджио , пионер глубокого обучения из Монреальского университета.
Но у исследователей ИИ еще есть способы двигаться вперед.
Жизнь после игр
Трудно точно определить начало доминирования ИИ в играх.Вы можете выбрать поражение Каспарова в шахматах, поражение Ли Седоля от виртуальных рук AlphaGo. Другой популярный вариант — тот день в 2011 году, когда легендарный чемпион игры Опасность! Кен Дженнингс проиграл IBM Watson. Ватсон умел понимать намеки и каламбуры.
«Я приветствую появление наших новых компьютерных повелителей», — написал Дженнингс в своем последнем ответе.
Судя по всему, Уотсон обладал офисными навыками, подобными тем, которые люди используют для решения многих реальных проблем.
Он мог принимать вводимые данные на английском языке, обрабатывать связанные документы в мгновение ока, извлекать связные фрагменты информации и выбирать единственный лучший ответ. Но семь лет спустя реальность продолжает создавать серьезные препятствия для ИИ.
В сентябре отчет По данным агентства здравоохранения Stat, преемник Watson, специализирующийся на исследованиях рака и разработке персонализированных рекомендаций по лечению, Watson for Oncology, столкнулся с проблемами.
«Вопросы под угрозой! Легче обработать, потому что для этого не требуется здравый смысл», — написал Бенджио, работавший с командой Watson, в ответ на просьбу сравнить два случая с точки зрения ИИ.
«Понять медицинскую статью гораздо сложнее.
Необходимо провести множество фундаментальных исследований».
Но хоть игры и узкоспециализированы, они напоминают несколько реальных задач.
Исследователи из DeepMind не пожелали отвечать на вопросы интервью, отметив, что их работу над AlphaZero сейчас изучают независимые специалисты.
Но команда предположила, что такая технология вскоре может помочь биомедицинским исследователям, желающим понять сворачивание белков.
Для этого им необходимо понять, как различные аминокислоты, входящие в состав белка, сгибать и складывать в небольшую трехмерную машину, функциональность которой зависит от ее формы.
Эта сложность аналогична сложности шахмат: химики знают законы на таком уровне, что могут грубо просчитать те или иные сценарии, но возможных конфигураций так много, что перебрать все возможные варианты не получится.
Но что, если бы сворачивание белка можно было рассматривать как игру? И это уже сделано.
С 2008 года онлайн-игру попробовали сотни тысяч людей.
Сложите его , в котором пользователям начисляются баллы за стабильность и реальность структуры белка, которую они складывают. Машина могла бы тренироваться аналогичным образом, возможно, пытаясь превзойти свои предыдущие лучшие результаты с помощью обучения с подкреплением.
Обучение с подкреплением и самостоятельная игра могут помочь в тренировке диалоговых систем, предполагает Сацкевер.
Это может дать роботам, которым необходимо разговаривать с людьми, возможность попрактиковаться в этом, разговаривая сами с собой.
Поскольку специализированное оборудование для искусственного интеллекта становится более быстрым и доступным, инженерам все чаще предлагается формулировать проблемы как игры.
«Я думаю, что игры с самим собой и другие способы потреблять много вычислительной мощности будут становиться все более важными в будущем», — сказал Зацкевер.
Но если конечная цель машин — повторить все, на что способен человек, то даже такому обобщенному чемпиону по настольным играм, как AlphaZero, еще есть куда расти.
«Что необходимо решить, по крайней мере мне, так это огромный разрыв между реальным мышлением, творческим исследованием идей и возможностями ИИ сегодня», — говорит Джон Тененбаум , когнитивист из MTI. «Такой интеллект существует, но пока только в головах великих исследователей ИИ».
Многие другие исследователи, чувствуя ажиотаж вокруг своей области, предлагают свои собственные критерии.
«Я бы рекомендовал не переоценивать важность этих игр как для ИИ, так и для задач общего назначения.
Люди не очень хорошо играют в игры», — говорит Франсуа Шоле, исследователь глубокого обучения в Google. «Но имейте в виду, что даже очень простые и специализированные инструменты позволяют добиться многого».
Теги: #искусственный интеллект #Go #шахматы #Логические игры #dota 2 #starcraft #OpenAI #Deep Blue #Deep Blue
-
Странный Парк: Сломанная Мелодия
19 Oct, 24 -
Грот Николай Яковлевич.
19 Oct, 24 -
Не Все Так Печально С Java На Mac Os X
19 Oct, 24 -
Способность Совершать Ошибки
19 Oct, 24