Может ли искусственный интеллект играть в Minecraft?

  • Home
  • blog
  • Может ли искусственный интеллект играть в Minecraft?
blog image

Публикация: Игра в Minecraft с поведенческим клонированием

Авторы: A. Kanervisto, J. Karttunen, V. Hautamäki

Год назад я получил невероятную возможность присоединиться к команде Университета Восточной Финляндии и принять участие в соревновании MineRL. Соревнование, финансируемое Microsoft, было призвано раздвинуть границы современного Обучения с подкреплением (англ. reinforcement learning).

Конкурсная установка заключалась в следующем: создать агента глубокого обучения, который научится играть в очень популярную видеоигру, Minecraft, добывая алмаз в игре. Участникам был предоставлен набор данных человеческих геймплеев, которые могли быть использованы для обучения. Обучение в самой игре было ограничено 8 миллионами обучающих шагов, это достаточно низкое количество шагов, по сравнению с обычными алгоритмами обучения, которые могут потребовать сотни миллионов обучающих образцов.

“Добыть бриллиант” — звучит как простая задача, но это не так. Для ее выполнения требуется выполнить несколько подшагов:

  • пробивка дерева, чтобы получить деревянное бревно
  • создать из него доски, а потом и ремесленные инструменты
  • поиск большего количества материалов, чтобы изготовить более качественные инструменты и т.д.,

чтобы, наконец, иметь возможность добыть алмаз. И найти его — это совсем другое дело. Для опытного игрока весь этот процесс может занять до 5-15 минут.

Чтобы научиться, агент глубокого обучения получает из игры только изображения, как это делает любой обычный игрок. Он может выполнять различные действия в игре, например, двигаться вперед, поворачивать камеру налево или изготовить деревянную кирку (только если необходимые материалы есть в инвентаре). Агент получает вознаграждение в зависимости от продвижения к выполненному заданию. Он не имеет никаких предварительных знаний об игре, поэтому сначала ему нужно научиться интерпретировать значения пикселей изображения, научиться распознавать различные объекты, такие как деревья, что каждое действие делает в окружающей среде, и так далее. Это как ребенок, которого просят выполнить длинное последовательное задание в открытом мире, еще до того, как он научится ходить и различать предметы.

В конце концов, наша команда заняла 5-е место во 2-м раунде конкурса, и мы опубликовали результаты исследования, которые были любезно приняты NeurIPS 2019 Competition & Demonstration Track. Если интересно — можно прочитать больше о наших результатах здесь

Я хочу сказать огромное спасибо моей команде за все усилия, которые они приложили при участии в конкурсе. Это принесло мне бесценный опыт!

В Karelics мы уделяем основное внимание робототехнике. Так какое отношение все это имеет к роботам? По сути, в видеоиграх устройство не слишком отличается от устройства реальных роботов. Агент действует в среде, которая возвращает картинки в виде состояний и наград. Аналогично можно было бы определить задачу «найти молоток» для робота, которую он мог бы научиться выполнять, используя глубокое обучение.

Но в данном примере эффективность является ключевым словом. Мы не можем тренировать алгоритмы Обучения с подкреплением, обучая робота в реальном мире, затрачивая на это сотни часов проб, что происходит, когда выполняются различные действия. Во многих ситуациях одно неверное действие может сломать робота. И мы никак не можем позволить роботу свободно исследовать и пытаться учиться в среде, где есть люди. Поэтому важно учиться на образцах, взятых у человеческого опыта, и важны эффективные способы самообучение на образцах. И это то, в чем и была вся суть этого конкурса.

YouTube

By loading the video, you agree to YouTube's privacy policy.
Learn more

Load video

Video of the overall best AI agent in competition from another team