Почему это важное событие?
Турнир организован Valve, разработчиком игры, призовой пул почти 25 млн долларов. Это крупнейшее киберспортивное соревнование каждый год устанавливает новый рекорд по количеству просмотров и призовому пулу. International смотрят онлайн полмиллиона зрителей на Twitch, еще несколько сотен тысяч через игровой клиент и миллионы в записи.
Инициативу открытых исследований «дружественного» ИИ поддержали многие ученые, в том числе Стивен Хокинг. В 2016 году Open AI выпустила платформу для исследования машинного обучения с подкреплением. Проект по созданию бота для игры в Dota 2 – один из шагов на пути к созданию ИИ, способного достигать целей в сложных, запутанных ситуациях с участием людей.
Это знаменательное событие для Open AI как организации, которая пытается создать сильный общий ИИ на благо человечества. Dota — сложная игра с неизвестной, скрытой информацией. Игроки умеют планировать, нападать и обманывать своих противников. Для успеха в такой игре необходимы навыки и интуиция, умение подстраиваться под ситуацию.
В интервью главный инженер Open AI Грег Брокман отметил, что победа в Доте – это первый шаг на пути к приоритетным задачам, например, хирургии. Разработчики Open AI обещают представить команду из 5 ботов, чтобы сразиться в полноценную версию игры против лучших команд на турнире в 2018 году. Если хотите помочь разрабатывать ботов для игры 5 на 5 – у Open Ai открыт набор инженеров по машинному обучению.
Запись матча вместе с предысторией:
Чем нейронная сеть отличается от игры против компьютера?
Игра против компьютера
Основное отличие бота Open AI от встроенных в игру противников заключается в технологии, на которой они основаны. Встроенные в игру противники построены на основе дерева решений. Решения находят перебором комбинаций входных параметров и решением оптимизационных задач. Такие деревья решений включают довольно большое количество параметров, таким образом игроку будет казаться, что он играет против живого или адаптирующегося противника.
Тем не менее все возможные вариации в поведении таких оппонентов заранее заданы создателями игры. Встроенные боты искусно имитируют интеллект, но не обладают им. Создание таких искусственных противников сравнительно проще и быстрее для разработчиков.
Игра против нейронной сети
Нейронные сети используют иной подход. Сеть, которую использовали Open AI, основана на принципе, который похож на эволюцию. Совершая случайные действия, сеть создает различные решения. Решения оцениваются функцией приспособленности (fitness function).
Удачные решения соединяются между собой, мутируют и создают новые поколения решений. Новые поколения сравнивают с их «родителями», чтобы понять появился ли прогресс. Если прогресса нет, решения-«родители» скрещиваются в новых пропорциях. Процесс похож на эволюцию организмов в живой природе. Такой алгоритм не всегда приводит к идеальному решению, но будет очень близок, пройдя через поколения ошибок.
На видео главный инженер проекта рассказывает о процессе обучения нейронной сети при подготовке бота к турниру:
Бот на основе нейронной сети требует значительно больше ресурсов, чем классическое дерево решений. Такие нейронные сети используют для проектирования двигателей реактивных самолетов и поиска лекарств от болезни Альцгеймера. Open AI использовали вычислительные мощности облачного сервера Microsoft Azure, так как Microsoft является одним из учредителей Open AI.
Твит Маска после победы бота на турнире:
Целиком процесс обучения нейронных сетей относительно функции приспособленности можно посмотреть на видео об игре Марио. Используя метод нейроэволюции дополняющих топологий или по-простому эволюции методом проб и ошибок, автор видео создал нейронную сеть, которая проходит уровень в Марио.
В начале обучения такой ИИ даже не умеет ходить, после 34 поколений и нескольких дней обучения ИИ смог закончить уровень без смертей:
Главный вызов
StarCraft II — это выдуманная фантастическая вселенная с богатым, многоуровневым геймплеем. Наряду с оригинальным изданием, это самая большая и успешная игра всех времен, в которую сражаются в турнирах уже больше 20 лет.
Для начала игрок должен выбрать одну из трех рас — зергов, протоссов или терранов, каждая из которых имеет свои особенности и возможности. Существует множество способов игры, но самый распространенный в киберспорте — это турниры «один-на-один», состоящие из 5 матчей. Каждый игрок начинает с нескольких рабочих юнитов, которые добывают ресурсы для постройки зданий, других юнитов или развития технологий. Поэтому профессиональные игроки чаще всего специализируются на одной расе. Для победы игрок должен очень изящно балансировать картину общей экономики, называемую «макро», и низкоуровневый контроль отдельных юнитов, называемый «микро». Это позволяет игроку захватывать другие ресурсы, строить все более изощренные базы и развивать новые способности, чтобы перехитрить оппонента.
Решение этой проблемы требует прорыва в нескольких областях ИИ: Необходимость балансирования краткосрочных и долгосрочных целей и адаптация к непредвиденным ситуациям ставит большой вызов перед системами, которые на поверку часто оказываются совершенно негибкими.
Поэтому в процесс обучения ИИ должен постоянно исследовать и расширять горизонты своих стратегических знаний. Теория игр: StarCraft — это игра, где как в «Камень, ножницы, бумага» нет единой победной стратегии.
Неполная информация: В отличие от шахмат или го, где игроки видят всё происходящее, в StarCraft’е важная информация часто скрыта и должна активно добываться путем разведки.
Игра также может длиться часа и больше, поэтому действия, совершенные в начале игры, могут не иметь в том числе абсолютно никакого значения в долгосрочной перспективе. Долгосрочное планирование: Как и в реальных задачах, причинно-следственные связи могут не быть мгновенными.
Реальное время: В разрез с традиционными настольными играми, где участники делают ходы по очереди, в StarCraft’е игроки совершают действия непрерывно, наряду с ходом времени.
В дополнение к этому, многие действия являются иерархическими и могут изменяться и дополняться по ходу. Огромное пространство действий: Сотни различных юнитов и зданий должны контролироваться одновременно, в реальном времени, что дает поистине огромное комбинаторное пространство возможностей. Наша параметризация игры дает в среднем примерно от 10 до 26 действий в единицу времени.
Текущие соревнования StarCraft и StarCraft II берут свое начало с момента запуска BroodWar API в 2009 году. Ввиду этих задач, StarCraft превратился в большой вызов для исследователей ИИ. Среди них — AIIDE StarCraft AI Competition, CIG StarCraft Competition, Student StarCraft AI Tournament и Starcraft II AI Ladder.
Примечание: В 2017 году PatientZero публиковал на Хабре отличный перевод «История соревнований ИИ по Starcraft».
Опираясь на эту работу, мы объединили наши инженерные и алгоритмические достижения, чтобы создать AlphaStar. Чтобы помочь сообществу исследовать эти проблемы в дальнейшем, мы, работая совместно с компанией Blizzard в 2016 и 2017 году, опубликовали набор инструментов PySC2, включающий самый большой из когда-либо изданных массив анонимизированных реплеев.
Также показан вид игрока MaNa, но он, разумеется, недоступен для агента. Визуализация AlphaStar во время поединка против MaNa, демонстрирует игру от лица агента — исходные наблюдаемые данные, активность нейронной сети, некоторые из предполагаемых действий и требуемых координат, а также предполагаемый исход матча.
В чем конспирология?
В связи с выходом API от Blizzard, в сети возникла конспирологическая версия. Технологические гиганты не просто так в один момент сфокусировались на компьютерных играх.
Спустя секунды после победы бота от Open AI Илон Маск написал в твиттере, что бот организация, инициатором которой стал сам Илон, победила в намного более сложной игре, чем шахматы или го:
Твит, вероятно, является хвастовством перед IBM и Google, которые освоили игры «попроще». Не стоит забывать, что Маск с коллегами вложили больше миллиарда долларов в некоммерческую исследовательскую организацию Open AI.
Как минимум они смогут привлечь лучших специалистов, которым впоследствии предложат работу в Tesla или других компаниях-спонсорах. На форумах и в твиттере Маска обвинили в кликбейте и преувеличении заслуг Open AI.
Недовольными остались разработчики ботов для Dota 2
Valve не пригласила на турнир программистов, которые работали над созданием сторонних решений для Dota 2. Существует несколько программ на основе деревьев решений и других технологий, которые способны играть даже в режиме 5 на 5. Тем не менее на сцене продемонстрировали ранний прототип для игры 1 на 1 от Open AI. Valve не комментировали данную претензию.
Материалы по теме:
ИИ Deepmind победил про-игроков в StarCraft 2
Blizzard, как и обещала, провела прямую трансляцию матчей по StarCraft 2, в которых сражался ИИ DeepMind и профессиональные игроки. По результатам одиннадцати матчей со счётом 10:1 победил искусственный интеллект.
Бот AlphaStar сражался с Дарио «TLO» Вунш и Гжегожом «MaNa» Коминчем. Во время трансляции сначала показали десять игр месячной давности, в которых ИИ обыгрывал своих оппонентов без шансов. После чего в рамках прямого эфира была сыграна ещё одна игра AlphaStar и MaNa, в которой профессиональный игрок неожиданно победил ИИ.
По словам польского игрока, он обнаружил слабость в стратегии AlphaStar, который бросал все свои силы на защиту базы в случаях даже небольших нападений. Это позволило Гжегожу собрать армию для решающей атаки и закончить игру в свою пользу.
Сегодня на Reddit пройдёт AMA-сессия с разработчиками из DeepMind, MaNa и TLO.
Больше интересных статей на Shazoo
- Сравнение релизной версии Warcraft 3 Reforged с роликом BlizzCon 2018
- Состоялся релиз Warcraft 3: Reforged, фанаты недовольны
- Системные требования Warcraft 3 Reforged включают 30 ГБ места на диске
- Глава Alphabet и Google призвал к разработке стандартов искусственного интеллекта
- ИИ Google определяет, насколько ваш голос похож на голос Фредди Меркьюри
AlphaStar и другие сложные проблемы
Несмотря на то что StarCraft — это лишь игра, пусть даже и очень сложная, мы думаем, что техники, лежащие в основе AlphaStar, могут быть полезны в решении других задач. К примеру, такой тип архитектуры нейронной сети способен моделировать очень длинные последовательности вероятных действий, в играх зачастую длящихся до целого часа и содержащих десятки тысяч действий, основанных при этом на неполной информации. Каждый фрейм в StarCraft’е используется как один шаг ввода. При этом нейронная сеть каждый такой шаг предсказывает ожидаемую последовательность действий для всей оставшейся игры. Фундаментальная задача составления сложных прогнозов для очень длинных последовательностей данных встречается во многих задачах реального мира, таких как прогноз погоды, моделирование климата, понимание языка и др. Мы очень рады осознавать огромный потенциал, который может быть применен в этих областях, использую наработки которые мы получили в проекте AlphaStar.
Одна из самых сложных проблем в области ИИ — это количество вариантов, при которых система может ошибаться. Мы также думаем, что некоторые из наших методов обучения могут оказаться полезными в изучении безопасности и надежности ИИ. Инновационный подход AlphaStar, основанный на обучении в лиге, находит такие подходы и делает общий процесс более надежным и защищенным от подобных ошибок. И профессиональные игроки в прошлом быстро находили способы обойти ИИ, оригинально используя его ошибки
В особенности, в таких критичных областях, как энергетика, где крайне важно правильно реагировать с сложных ситуациях. Мы рады, что потенциал такого подхода может помочь в улучшении безопасности и надежности ИИ-систем в целом
Мы верим, что эти достижения, наряду с успехами в других проектах, будь то AlphaZero или AlphaFold, представляют собой шаг вперед в осуществлении нашей миссии по созданию интеллектуальных систем, которые однажды помогут нам найти решения для самых сложных и фундаментальных научных вопросов. Достижение такого высокого уровня игры в StarCraft представляет собой большой прорыв в одной из самых сложных когда-либо созданных видеоигр.
11 реплеев всех матчейВидео показательного матча против MaNaВидео с визуализацией AlphaStar полного второго матча против MaNa
Почему именно Зерги?[править]
Нажмите для проигрывания
Стандартный раш шестью собачками в первые пять минут боя.
Нажмите для проигрывания
А вот так можно сделать в Starcraft II.
Причин этому несколько:
- Сама суть Зерга. Главное отличие зерга от других рас — хорошего зерга всегда много. Ибо:
- Юниты зерга в среднем дешевле и слабее юнитов других рас.
- Особая механика производства — юниты не строятся/выращиваются зданиями по одному, как у других рас, а получаются из личинок. Личинки можно накапливать в главном здании до определенного предела. Поэтому Зерг может быстро создать большую армию, размер которой напрямую зависит от числа освоенных баз, но не может делать этого на постоянной основе.
- Из-за особенностей глобального баланса при равной игре у зерга немного больше добывающих мощностей, чем у других рас — а значит и больше армия.
- Раш шестью зерглингами без строительства трутней — это самый ранний раш из практически используемых, когда у противника, кроме рабочих, на базе нет вообще ничего. Максимум один-два десантника .
- До патча 1.08 шансы на победу при раше без строительства рабочих были несбалансировано высоки, что открывало благодатные возможности для .
Комбинация мема и вышеизложенных соображений в коллективном бессознательном привела к тому, что зергом стали называть всё, чего много, будь то быдло, китайцы или эльфы в Lineage. При этом часто намекается на недостаток интеллекта этой толпы. Например, существует производный глагол «зазергать» — то есть тупо закидать шапками какого-нибудь босса, придя на него толпой, заведомо лучше одетой или существенно более высоких уровней, чем это необходимо для его убийства «по правилам».
Делаем фигурку Скрытня (Lurker) StarCraft 2
Поэтапное создание фигурки, юнита зергов, из игры StarCraft 2
Для изготовления фигурки я использую каркас и фольгу для набора массы, Лепить будем из полимерной глины SUPER SCULPEY.
Шипы запекаю отдельно, чтоб уже прочные воткнуть в еще мягкую основу фигурки.Так же начинаю добавлять деталей.
Запекаю фигурку в электрической духовке при 130-140 градусах.
Немного декорирую подставку под эффект ямы от люркеров.
Грунтую и начинаю красить акрилом, после чего закрепляю лаком.
Вот что в итоге получается :3Скрытень ( StarCraft II)
Высота фигурки — 8 см, длина — 10 см, ширина — 8. Super Sculpey, акрил.
Примечания
- ↑ Николай Воронцов. . N+1 (25 января 2019). Дата обращения: 4 января 2020.
- ↑ Александр Ершов. . Meduza (31 октября 2019). Дата обращения: 4 января 2020.
- ↑ Тарас Молотилин. . N+1 (10 августа 2017). Дата обращения: 4 января 2020.
- Christina Kelly. (англ.). ESPN (24 ноября 2016). Дата обращения: 4 января 2020.
- Тарас Молотилин. . N+1 (11 августа 2017). Дата обращения: 4 января 2020.
- The AlphaStar team. (англ.). DeepMind (24 января 2019). Дата обращения: 24 января 2019.
- ↑ SLAVCRAFT. . Gmbox.ru (25 января 2019). Дата обращения: 4 января 2020. (недоступная ссылка)
- Коняшин Андрей. (недоступная ссылка). Gmbox.ru (1 ноября 2019). Дата обращения: 4 января 2020.
- Ian Sample. (англ.). Guardian (30 октября 2019). Дата обращения: 8 февраля 2019.
- Izzard. . GoodGame.ru (5 ноября 2019). Дата обращения: 4 января 2020.
- Timothhy B. Lee. (англ.). Ars Technica (30 января 2019). Дата обращения: 4 января 2020.
- Ben Dickson. (англ.). pcmag.com (8 марта 2019). Дата обращения: 4 января 2020.
- Артем Ращупкин. (англ.). Канобу (3 ноября 2019). Дата обращения: 4 января 2020.
Простым и понятным языком[править]
Даже шахматы.
Нажмите для проигрывания
Или даже футбол!
Аналогия для тех, кто не знает, что такое StarCraft. Возьмём сферическую стратегическую игру в вакууме или вовсе альтернативную историю.
Допустим, одна из сторон конфликта удваивает ВВП, инвестирует в наукоёмкие производства, осваивает бабло на инновационных нанотехнологиях, занимается разведкой недр и добычей из них разнообразных ништяков — короче, целиком и полностью концентрируется на науке и экономике. Всё это во имя Великой Цели — сделать быстрее всех вундервафлю и транклюкировать всех врагов.
Так вот, такая стратегия — полная противоположность зерг рашу.
Основная идея раша: зачем тратить бабло на изобретение стелс-пихоты, постройку мамонт-танков, коллайдера и прочие убердевайсы, которые обеспечат тотальную и безусловную победу в далеком будущем, когда можно на те же деньги нанять over 9000 гастарбайтеров уже сейчас? И пусть они в одних труселях и с монтировками, но напихать могут без всяких стелсов. В общем, на науку и экономику забивается большой и волосатый, а всё бабло уходит на быстрое создание многочисленной, но совершенно непрофессиональной армии. Количество превыше качества!
Практически сразу вся эта орда отправляется на неподготовленного соседа, у которого из оборонительных сооружений только библиотеки и конструкторское бюро.
Далее возможны три варианта развития событий:
- Гастарбайтеры выпиливают всех, кто способен постоять за
себяРодину, и жёстко насилуют всех остальных. Блицкриг удался, Win. - Если пострадавшие успели изобрести и хоть чуть-чуть наштамповать короткостволы и успешно отбиваются от набега варваров, то ситуация резко меняется. У одних — передовые технологии и бабло на их внедрение, у других — каменный век и дыра в бюджете. Далее следуют ответные пиздюлища. Fail.
- Если же вторая сторона заранее решила снять все средства с науки и пустить на расставление по периметру будок с овчарками, видеокамер и таможенников, готовых изъять монтировки у гастарбайтеров, а те взяли и не пришли, сами решив сначала вооружиться получше — соответственно, против изобретенного отожравшимися дома хитрыми гастарбайтерами мирного советского трактора выставить будет нечего, и овчарок аннигилируют, даже не удосужившись пересчитать.
В общем, пан или пропал. Хотя изредка исход получается чем-то средним между двумя из трех вышеперечисленных.
Увеличить шансы на успех можно, если:
- собрать толпу побольше;
- ебануть пораньше;
- таки мало-мало развиться.
Так как это взаимоисключающие параграфы, то успех раша зависит от правильного баланса. Причем какой именно баланс был бы правильным в конкретном случае зависит от действий противника, которые заранее рашующему неизвестны, как и противнику неизвестен этот баланс, да и сам факт наличия раша. В общем — рулетка в чистом виде.
Вкратце: три типовых стратегии. Раш, оборона, развитие. Раш натыкается на оборону, оборона натыкается на развитие, развитие натыкается на раш.
Что характерно, если сторон конфликта больше двух, то победа чуть чаще чем всегда оказывается пирровой — пока гастарбайтеры выпилят соседа (с пропорциональными потерями), кто-нибудь третий таки наштампует короткоствол, навешает гастарбайтерам и невозбранно отожмёт все материальные блага у обеих сторон.
Как читит AlphaStar от Google в Starcraft II.
AlphaStar — распиаренный нейро-сеть-бот от DeepMind ( https://starcraft2.com/ru-ru/news/22933138 ), который с помпой запущен в тесты на ладдере Starcraft II. Декларировалось, что это честный бот, что он смотрит на экран, как смотрит человек, что он кликает по юнитам, как кликает человек и отдает приказы, как отдает человек.
В итоге все как всегда.
52-минутное видео без текстовых объяснений. ага, щаззз.
Почему читит и почему минусят?
кто посмотрел, увидел и разобрался.
Ролик был просмотрен сразу же, и даже употреблен в дискуссии)) #comment_145912693
Про читерство, вроде говорилось, что полный обзор карты у Альфастар сохраняется. Перемещения экрана просто для видимости
@moderator, можете отредактировать пост, эту часть
AlphaStar — распиаренный нейро-сеть-бот от Google
AlphaStar детище компании DeepMind, а не гугла https://starcraft2.com/ru-ru/news/22933138
@Retigr, как на счет перенести пост в тематическое сообщество по старкрафту?
забирайте, если можете.
@moderator, нужна ваша помощь
Я посмотрел, ведущий ругает бота за непонимание игры, но- итог, бот побеждает с вероятностью 80+ проц, на высоких рейтах. У него есть условия победы- поставить то, то и то, если выполнено, то давим юнитами, и микроконтролем, и это срабатывает.
Получается все те фишки, которые бот пытается выполнить, и у него не получается, дают такой микрорезультат, что он просто не важен для победы.( отбирание руды рабочими)
В итоге я вижу что людям нужно научиться играть у бота.
Значит ты смотрел невнимательно. Бот побеждает исключительно по причине того что у него не такой функционал как у игрока. К тому же показали только макро игры. С такими билдами бот отлетает от любого чиза. И да, автор ругает нейросети которые копируют поведение других игроков не понимая зачем это делается, а не то что бот не умеет играть в ск2. Людям нечему учится у программы которая контролит каждым отдельным юнитом в одну единицу времени. Дообучится програма будет продвинутый тренажер.
Причем тут это? Видео выложено тут для обсуждения или для чего? Я подключился к обсуждению.
Где там бот читовал, прекрасно видно. Он не ведет себя как человек играя в игру. Не кликает мышкой, а использует какой то свой внутренний интерфейс.
А затем в третьем видео, неожиданно начинает кликать, и все равно выигрывает.
Способен ли человек на такой микро? При одинаковом управлении, мышкой, и бот и человек вполне способны. Разница в надобности этого человек не будет столько времени на игру тратить, и не выдержит в темпе.
И еще кое что, в первом видео, бот прекрасно играет без интиэйра, пока противник делает все что бы построить именно эйр, итог мы видим, бот просчитал что если он и потеряет 10 юнитов от самолетов, то это нивелируется массовостью производства этих юнитов. Отвелкись он на создание Антиэйра, не произведет нужного количество юнитов для продолжения давления на игрока. Темп упадет.
да уж, до свиданья.
бот играет с ошибками, логическими ошибками, потому что он пытается использовать то, что он видит в играх со стороны человека, но у него не получается. а выезжает он за счёт использования читов, то есть бонусов, которые есть только у него и ни у кого другого. более того, если игрок бы имел какие-то скрипты для таких же возможностей — он получил бы бан в этой игре. но не альфа стар. чему учиться у него, если это он совершает ошибки, которые не совершают сколь-либо опытные игроки (играющие больше недели) и выигрывает только за счёт нечестной игры? пздц у вас логика. даже женская логика логичней
ппц ты тормоз 5 месяцев прошло, ты решил высраться. Иди роди
Нет проблем, с вас 200 рублей. А вот мой яндекс кошелек.)
«У него нет понимания» говорит обзорщик. Как по мне то это у него нет понимания что такое и как работают нейросети. ИМХО видео не о чем.
О работе на турнире по StarCraft II
«Ностальгические чувства есть, но они не превалирующие. Это в CS 1.6 или в старом Quake нет сцены как таковой, людей, которые соревнуются на постоянной основе. В SC куча молодых и старательных игроков. Эта дисциплина изменилась с тех пор, как я был её мейнером.
На мой взгляд, StarCraft совершенно не в вымирающем положении. Я в этой игре разбираюсь: не могу сказать, что круто или плохо — где-то посредине. Когда я много тренировался, я разбирался в ней хорошо. Сейчас я неплох, если у меня есть в паре аналитик, например, Alex007 . Бывают всякие косяки в силу того, что я не постоянно в ней тренируюсь.
Я готовился к турниру, как и к любому эфиру по любой дисциплине. Не бывает такого, что я просто пришел, сел, и понеслась. Я смотрел игры, сам играл. Я потренировался за террана, взял Мастер Лигу — это 4,5-4,6 тыс. MMR. Не у всех активных комментаторов в СНГ есть такой рейтинг! Я не могу сказать, что он заслуженный, потому что я его заабузил олл-инами, чизами. В “Доте” каждые 100 MMR мне даются очень сложно, а в “Старкрафте” до какого-то уровня я пробираюсь любыми стратегиями, которыми играю, просто за счет скорости и опыта.
На WCS приехало почти 80 игроков, и ты не можешь посмотреть историю встреч каждого. Но чем дальше по турниру, тем проще. Из восьмерки лучших я по каждому могу что-то рассказать, чего многие не знают».
Как AlphaStar действует и видит игру
Профессиональные игроки, как TLO или MaNa, способны совершать сотни действий в минуту (APM). Но это намного меньше, чем у большинства существующих ботов, которые независимо контролируют каждого юнита и генерируют тысячи, если не десятки тысяч действий.
Такой низкий APM объясняется в частности тем, что AlphaStar начинал учится на основе реплеев обычных игроков и пытался подражать манере человеческой игры. В наших играх против TLO и MaNa, AlphaStar держал APM в среднем на уровне 280, что намного меньше чем у профессиональных игроков, хотя его действия при этом могут быть более точными. В дополнение к этому, AlphaStar реагирует с задержкой между наблюдением и действием в среднем около 350 мс.
Распределение APM AlphaStar в матчах против MaNa и TLO, и общая задержка между наблюдением и действием.
В разрез с этим, живые люди должны явно управлять «экономикой внимания», чтобы постоянно решать, где сфокусировать камеру. В ходе матчей против TLO и MaNa, AlphaStar взаимодействовал с игровым движком StarCraft’а через базовый (raw) интерфейс, то есть он мог видеть атрибуты своих и видимых вражеских юнитов на карте напрямую, без необходимости двигать камеру — эффективно играть с уменьшенным видом всей территории. В среднем агент переключает свой контекст внимания примерно 30 раз в минуту, подобно MaNa и TLO. Тем не менее, анализ игр AlphaStar показывает, что он неявно управляет фокусом внимания.
Как игроки-люди, эта версия AlphaStar явно выбирает, когда и куда двигать камеру. В дополнение мы разработали вторую версию AlphaStar. В этом варианте его восприятие ограничено информацией на экране, а действия также допустимы только на видимой области экрана.
График показывает, что новый агент, работающий с камерой, быстро достигает сопоставимой производительности агента, использующего базовый интерфейс. Производительность AlphaStar при использовании базового интерфейса и интерфейса с камерой.
Каждый агент в начале был обучен с учителем на основе человеческих матчей, с последующим обучением с подкреплением, описанным выше. Мы обучили двух новых агентов, одного с использованием базового интерфейса и одного, который должен был научиться управлять камерой, играя против лиги AlphaStar. В показательном матче, MaNa победил прототип AlphaStar, использующий камеру. Версия AlphaStar, использующая интерфейс с камерой, достигла почти таких же результатов, что и версия с базовым интерфейсом, превысив отметку в 7000 MMR на нашей внутренней таблице лидеров. Мы надеемся, что сможем оценить полностью обученную версию с камерой в ближайшем будущем. Эту версию мы обучали только 7 дней.
Эти результаты показывают, что успех AlphaStar в матчах против MaNa и TLO в первую очередь является следствием хорошего макро- и микро-менеджмента, а не просто большого клик-рейта, быстрой реакции или доступа к информации базового интерфейса.
Как работает ИИ в играх?
Вместо того чтобы узнать, как лучше всего победить игроков, ИИ в видеоиграх предназначен совсем для другого. Он необходим для улучшения игрового опыта геймеров.
«Чтобы быть полезным, ИИ должен вести хорошую борьбу, но чаще проигрывать, чем побеждать. Он должен заставить игрока почувствовать себя умным, хитрым и могущественным».
Мэт Бакленд, отрывок из книги «Программирование игрового искусственного интеллекта в примерах»
Самая распространённая роль ИИ в видеоиграх — управление неигровыми персонажами, и разработчики часто используют различные трюки, чтобы NPC выглядели более умными. Один из широко используемых алгоритмов называется конечным автоматом (FSM или finite-state machine). Его ввели в разработку видеоигр в 1990-х годах. В FSM-алгоритме разработчик обобщает все возможные ситуации, с которыми может столкнуться ИИ, а затем программирует конкретную реакцию для каждой из них. Например, в шутерах искусственный интеллект атакует, когда появляется игрок, а затем отступает, когда его собственный уровень здоровья становится слишком низким.
В примере алгоритма FSM NPC может выполнять четыре основных действия в ответ на возможные ситуации: поиск помощи, уклонение, блуждание и нападение. Многие известные игры, например Battlefield, Call of Duty и Tomb Raider, включают в себя успешные примеры искусственного интеллекта на основе FSM-алгоритма.
Более продвинутый метод, который используют разработчики для повышения персонализированного игрового опыта, — алгоритм дерева поиска Монте-Карло (MCTS или Monte Carlo Tree Search). Алгоритм MCTS был создан для предотвращения аспекта повторяемости, который присутствует в FSM-алгоритме. MCTS-алгоритм сначала обрабатывает все возможные ходы, доступные NPC в конкретный момент времени. Затем для каждого из этих возможных ходов он анализирует все действия, которыми игрок мог бы ответить. А далее — снова возвращается к оценке NPC уже на основе информации о поступках игрока.
Этот алгоритм искусственного интеллекта использовала компания IBM при создании Deep Blue — первого шахматного суперкомпьютера, который 11 мая 1997 года вошёл в историю и выиграл матч из шести партий у чемпиона мира по шахматам Гарри Каспарова.
Подобный алгоритм применяют и во многих стратегических играх. Но поскольку возможных ходов гораздо больше, чем в шахматах, рассмотреть их все попросту не получится. В таких играх алгоритм MCTS будет случайным образом выбирать некоторые из возможных ходов. Благодаря этому действия NPC становятся гораздо более непредсказуемыми для игроков.
Вспомним такую игру, как Civilization, в которой существует огромное количество вариантов событий, доступных для компьютерного противника. Постройка дерева для каждого возможного выбора и сценария заняла бы очень много времени. Именно поэтому, чтобы избежать столь огромных вычислений, алгоритм MCTS случайным образом выбирает несколько возможных вариантов. В итоге игра отнимает меньше ресурсов системы, при этом ИИ в ней всё ещё способен удивлять игроков.
Определение искусственного интеллекта
Чтобы разобраться, как работает искусственный интеллект, мы должны понять, что же подразумевают под этим словосочетанием. Некоторые люди могут ответить на этот вопрос чем-то подобным: «Искусственный интеллект — это мозг, который воссоздан внутри компьютера». Отчасти они будут правы, но концепцию «ИИ как мозг» уже успели высмеять десятки раз — например, в Fallout: New Vegas.
Игровой искусственный интеллект — это набор программных методов, которые используют в видеоиграх для создания иллюзии разума у NPC через поведение персонажей. Игровой ИИ включает в себя алгоритмы теории управления, робототехники, компьютерной графики и информатики в целом.
«Искусственный интеллект в играх представляет собой всё, что не запускается игроком во время игрового процесса».
Фредерик Пельтье, директор по техническому производству в Ubisoft Mobile
ИИ — технология, которая посредством машинного обучения позволяет системе научиться анализировать определённую информацию в виртуальной среде, чтобы получить поведение, более приближенное к человеческому. Ещё несколько десятилетий назад нечто подобное могло встретиться разве что в научной фантастике, но теперь аналогичные технологии применяют повсеместно.
О причинах отсутствия командных лиг по StarCraft II
«Я думаю, из-за сложности. Я, конечно, чувствую себя олдом, который немного ворчит насчет старых времен, но мне очень нравились командные форматы. Но тут нужно понимать: если ты хочешь выигрывать на командных лигах, тебе нужен хороший состав. Тогда в ростере нужны несколько крутых игроков и несколько “так себе” игроков, чтобы у тебя был состав на bo5, а лучше на bo7. Тебе нужно шесть игроков, чтобы одного выпустить, скажем, на первую — седьмую карты, а остальных — на каждую отдельно. Это довольно много, организации не готовы это тянуть.
Будем откровенны: StarCraft не собирает каких-то суперкрутых чисел на трансляции, чтобы спонсоры, когда им говорят: “У нас есть состав по StarCraft”, отвечали: “Берите все мои деньги”. Такого, наверное, не происходит. Многим людям просто нравится инвестировать в киберспорт какие-то умеренные деньги. Для кого-то не проблема потратить условные $20-30 тыс. в год на киберспорт. Кто-то за счет этого отбивается, находит конкретного спонсора под конкретного игрока. А когда у тебя есть команда, тебе уже нужен тренер, буткемп, а это сложности. Когда у тебя есть отдельные игроки, уже существует возможность для коллаборации.
Плюс эти бренды команд так и не прижились. Очень сложно объяснить игрокам, зачем играть в командных турнирах. Если бы в той же “Доте” был успешный соло-режим, то условный None сказал бы, что не пойдет играть в команде, потому что на соло-турнирах может заработать больше. Справедливо — зачем тебе выполнять какую-то медийку, носить тег, ездить на турниры, которые тебе не нравятся. В командных дисциплинах это подразумевается. А в индивидуальных это уже немного искусственная надстройка, которая исторически сложилась в Корее. Там у них были команды, тим-хаусы, они так играли. Потом во втором “Старкрафте” это чуть-чуть продолжилось, но быстро загнулось».
Как происходит обучение
нейронной сетьюtransformerdeep LSTM coreauto-regressive policy headpointer networkcentralised value baseline(для точности терминов оставлено без перевода)доступныЛига AlphaStar. Агенты изначально обученные на основе реплеев человеческих матчей, а затем на основе соревновательных матчей между собой. На каждой итерации, новые соперники разветвляются, а первоначальные замораживаются. Вероятности встречи с другими оппонентами и гиперпараметры определяют цели обучения для каждого агента, что повышает сложность, которая сохраняет разнообразие. Параметры агента обновляются методом обучения с подкреплением, основываясь на исходе игры против соперников. Конечный агент отбирается (без замены) на основе распределения Нэша.population-basedОценка MMR (Match Making Rating) — примерный показатель мастерства игрока. Для соперников в лиге AlphaStar в ходе обучения, в сравнении с онлайн-лигами Blizzard’а.Photon CannonsDark TemplarsOraclesПо мере того как обучение продвигалось, было заметно как изменяется состав юнитов, которым пользуются агенты.Интерактивная визуализация (интерактивные функции доступны в оригинале статьи), которая показывает соперников с лиге AlphaStar. Агент, который играл против TLO и MaNa отдельно отмечен.off-policy actor-criticexperience replayself-imitation learningpolicy distillation(для точности терминов оставлено без перевода)Изображение показывает как один агент (черная точка), который был выбран в итоге для игры против MaNa, развивал свою стратегию в сравнении с оппонентами (цветные точки) в процессе обучения. Каждая точка представляет соперника в лиге. Положение точки показывает стратегию, а размер — частоту, с которой она выбирается в качестве соперника для агента MaNa в процессе обучения.Google TPUраспределения НэшаРаспределение Нэша между соперниками в ходе развития лиги и создания новых оппонентов. Распределение Нэша, which is the least exploitable set of complementary competitors, высоко оценивает новых игроков, демонстрируя таким образом постоянный прогресс по сравнению со всеми прошлыми конкурентами.