返回首页 > 您现在的位置: 比赛信息 > 新闻资讯 > 正文

【视频】DeepMind星际争霸AI登上Nature,超越99.8%活跃玩家,玩转三大种族

发布日期:2024/3/20 12:24:46 浏览:32

【视频】DeepMind星际争霸AI登上Nature,超越99.8%活跃玩家,玩转三大种族

1572491072

A

AlphaStar是有史以来第一个在无限制情况下达到主流电子竞技游戏顶级水准的AI,它在星际争霸2上达到了最高的Grandmaster(宗师)段位。

文_机器之心

今天,DeepMind有关AlphaStar的论文发表在了最新一期《Nature》杂志上,这是人工智能算法AlphaStar的最新研究进展,展示了AI在「没有任何游戏限制的情况下」已经达到星际争霸2人类对战天梯的顶级水平,在Battle。net上的排名已超越99.8%的活跃玩家,相关的录像资料也已放出。

虽然还是打不过世界第一人类选手Serral,但AlphaStar已经登上了Nature。在DeepMind的最新博客中,研究者们对于这一AI算法的学习能力进行了详细介绍。

在游戏中,压榨(Exploiter)智能体(红色)发现了一种「TowerRush」策略,从而打败了核心智能体(蓝色)。

随着训练的进行,新的核心智能体(绿色)已经学会拖农民和其他单位来对抗压榨智能体(红色)的「TowerRush」。

与此同时,新的核心智能体(绿色)通过优势经济、单位配合和控制击败了早期核心智能体(蓝色)。

新的压榨智能体(棕色)发现了新核心智能体不会反隐的弱点,并通过建造隐刀成功击败了它。

DeepMind发推称已达到Grandmaster水平。

在今年夏天线上和线下的一系列比赛中,AlphaStar暂时没像前辈AlphaGo那样一举击败「人类界最强选手」,但仍然在与全球顶级玩家的90场比赛中取得了61场胜利。

基于在游戏对战上的表现,谷歌旗下公司在星际争霸2上的研究或许可以在数字助理、自动驾驶,乃至军事战略为人类带来帮助。

星际争霸:人工智能的「下一个重大挑战」

星际争霸2是人类游戏史上最困难、最成功的即时战略游戏,这一系列游戏的历史已经超过20年。星际争霸长盛不衰的部分原因在于其丰富的多层次游戏机制,对于人工智能研究来说,这是一个非常接近现实世界的虚拟环境。

自从围棋国际象棋、德州扑克相继被计算机破解以来,星际争霸被视为人工智能的「下一个重大挑战」。

星际争霸2巨大的操作空间和非完美信息给构建AlphaStar的过程带来了巨大挑战。与围棋不同,星际争霸2有着数百支不同的对抗方,而且他们同时、实时移动,而不是以有序、回合制的方式移动。国际象棋棋子符合规则的步数有限,但AlphaStar每时每刻都有超过1026种动作选择,即操作空间非常巨大。而且,与围棋等完美信息游戏不同,星际争霸2是非完美信息游戏,玩家经常无法看到对手的行动,因此也无法预测对手的行为。

2017年,DeepMind宣布开始研究能进行即时战略游戏星际争霸2的人工智能——AlphaStar。事实上,根据DeepMind博客提供的信息,DeepMind对星际争霸的研究已经超过15年。也就是说,对整个星际争霸游戏智能体的研究早在2004年之前就开始。

2018年12月10日,AlphaStar击败了DeepMind公司里的最强玩家DaniYogatama;到了12月12日,AlphaStar已经可以5:0击败职业玩家TLO了(TLO是虫族玩家,据游戏解说们认为,其在游戏中的表现大概能有5000分水平);又过了一个星期,12月19日,AlphaStar同样以5:0的比分击败了职业玩家MaNa。

至此,AlphaStar又往前走了一步,达到了主流电子竞技游戏顶级水准。

排名前1,「神族、人族、虫族」均达到大师水平

DeepMind称,AlphaStar本次研究和以往有以下不同:

AlphaStar有着和人类玩家一样的摄像头视野限制(即机器也看不到视野外发生的情况),而且机器动作频率也被限制住了。

AlphaStar能够玩一对一匹配中的三个种族了(即星际争霸中的人族、神族和虫族),而且每个种族的时候都会有一套对应的神经网络。

整个训练过程是完全自动化的,智能体从监督学习开始训练,而不是从过去实验过的智能体开始。

AlphaStar在Battle。net对战平台上进行了游戏,使用的是和人类玩家一样的地图。

DeepMind使用通用机器学习技术(包括神经网络、借助于强化学习的自我博弈、多智能体学习和模仿学习)直接从游戏数据中学习。据《Nature》论文中描述,AlphaStar在Battle。net上的排名已超越99.8%的活跃玩家,并且在星际争霸2的三场比赛(神族、人族和虫族)中都达到了大师级水平。研究者希望这些方法可以应用于诸多其他领域。

基于学习的系统和自我博弈显著促进了人工智能的显著进步。1992年,IBM的研究人员开发出了TD-Gammon,结合基于学习的系统与神经网络玩西洋双陆棋(backgammon)。TD-Gammon不是根据硬编码规则或启发法来玩游戏,而是在设计上使用强化学习并反复试验,找出如何获得最大化胜率。开发人员利用自玩对弈的概念使得系统的鲁棒性更强:即通过与自身版本进行对抗,系统变得越来越精通游戏。当结合起来时,基于学习的系统和自我博弈的概念提供了开放式学习的强大范式。

从那以后,诸多进展表明,这些方法可以扩展到其他挑战日益增多的领域。例如,AlphaGo和AlphaZero证实了系统可以在围棋、国际象棋和日本将棋等游戏中,展现人类所不能及的能力。OpenAIFive和DeepMind的FTW也在Dota2和《雷神之锤III》现代游戏中展现了自我博弈的强大性能。

DeepMind的研究者潜心于开放式学习的潜力及局限性研究,开发出既鲁棒又灵活的智能体,从而可以应对复杂的现实世界环境。星际争霸之类的游戏是推进这些方法的绝佳训练场,因为玩家必须使用有限的信息来做出灵活有难度的决策。

在智能体「联盟」中进行的自我博弈

Deepmind发现,AlphaStar的游戏方式令人印象深刻——这个系统非常擅长评估自身的战略地位,并且准确地知道什么时候接近对手、什么时候远离。虽然AlphaStar已经具备了出色的控制力,但它还没有表现出超人类的能力,至少没有到那种人类理论无法企及的高度——总体来说还是公平的,与它对战的感觉就像平时星际争霸真实对战的场景。

即使取得了成功,自我博弈会存在缺陷:能力确实会不断提升,但它也会忘记如何战胜之前的自己。这可能会造成「追尾」(像小狗那样自己追着自己的尾巴),从而失去了真正的提升机会。

比如说,在石头剪刀布的游戏中,一个人可能更喜欢出石头,在游戏玩法提升过程中,它会变成爱出剪刀,后来又变成了爱出石头。进入与所有游戏策略的对战是解决虚拟自我博弈此前存在问题的途径。

在首次将StarCraftII开源后,Deepmind发现虚构的自我博弈不足以训练出强大的战术,于是他们尝试开发更优的解决方案。

「联盟」训练

在最近这期《Nature》杂志中,Deepmind文章的中心思想是将这种虚构的自我博弈扩展到一组智能体,即「联盟」。通常,在自我博弈中,想在星际争霸游戏中取得更好成绩的玩家可以选择与朋友合作战斗,来训练特定的策略,因此他们所面对的竞争对手并不包括这个游戏中所有的玩家,而是帮助他们的朋友暴露问题,使其成为更好更鲁棒的玩家。

联盟这一概念的核心思想是:仅仅只是为了赢是不够的。相反,实验需要主要的智能体能够打赢所有玩家,而「压榨(exploiter)」智能体的主要目的是帮助核心智能体暴露问题,从而变得更加强大。这不需要这些智能体去提高它们的胜率。通过使用这样的训练方法,整个智能体联盟在一个端到端的、完全自动化的体系中学到了星际争霸2中所有的复杂策略。

图1:星际争霸系列等复杂游戏域中的一些挑战。

(前排)玩家可以创建各种「单位」(如工人、战士或运输者)来部署不同的战略移动。得益于模仿学习,DeepMind的初始智能体可以执行多种策略,在这里描述为游戏中创建的单位组成(在此示例中:虚空舰、追踪者和不朽者)。但是,由于某些策略更易于改进,因此单纯的强化学习主要集中于它们。其他策略可能需要更多的学习经验或者具有一些特殊的细微差别,使得智能体更加难以完善。这就会造成一个恶性循环,其中一些有效策略的效果越来越差,因为智能体放弃了它们而选择了占主导地位的策略。(底部行)研究者在联盟中添加了一些智能体,这些联盟的唯一目的是暴露核心智能体的弱点。这意味着需要发现和开发更多有效的策略,从而使核心智能体对敌方产生更多的抵抗。在同一时间,研究者采用了模仿学习技术(包括蒸馏法),以防止Alphastar完全摆脱训练,并使用隐变量来表征多样化的开局行动。

在星际争霸等复杂的环境中,探索是另一项关键挑战。每个智能体在每个时间步中最多可以使用1026个可能的动作,并且在了解自己赢得或输掉比赛之前,该智能体必须先进行数千次动作。在如此庞大的解决空间(solutionspace)中,寻找制胜策略是一项挑战。即使拥有强大的自我博弈系统以及由压榨智能体组成的多样化联盟,但如果没有一些先验知识,系统在如此复杂的环境中也几乎不可能制定出成功的策略。

因此,学习人类玩家的策略并确保智能体在自我博弈中不断探索这些策略,这是释放AlphaStar效能的关键。为此,借助于模仿学习并结合了用于语言建模的高级神经网络架构和技术,研究者制定了最初的策略,使游戏结果优于84%的活跃玩家。此外,研究者还使用了一个隐变量,该变量确定了策略并对人类游戏的开局行动分布进行编码,这有助于保留高级策略。然后,AlphaStar在整个自我博弈中使用一种蒸馏形式(formofdistillation),将探索偏向于人类策略。这种方法使得AlphaStar可以在单个神经网络中(每个族群各一个)表征许多策略。在评估过程中,这种神经网络不以任何特定的开局行动为条件。

AlphaStar是一个不同寻常的玩家,其具有最佳玩家的反应能力和速度,还有其战略和风格是完全独有的。AlphaStar的训练是通过一组智能体在联盟相互竞争,压榨出所有可能的结果,使得游戏结果变得难以想象般的不同寻常。这无疑使人想要思考星际争霸中有多少可能性是职业玩家已经探索过的。

另外,研究者还发现许多之前强化学习学到的方法是无效的,因为这些方法的动作空间太大。特别的是,AlphaStar使用了异步强化学习(off-policyreinforcementlearning),使其可以高效地更新自己之前的策略。

实验效果

在测试AlphaStar的过程中,DeepMind的研究者对其进行了限制,使其和人类玩家保持一致。特别是在操作速率上,为了避免智能体为了多获得奖励而像超人一样过快点击从而打败对手,DeepMind将其控制在有经验的玩家水平上。

基于这些限制,经过了27天的训练后,DeepMind与暴雪在战网天梯中开放了AlphaStar:玩家只要进行申请并通过就可以和这个最强AI进行在线对决了。而且现在,AlphaStar已经可以使用全部三个种族。在开放对战环境中,AlphaStar在欧洲服务器

[1] [2]  下一页

最新新闻资讯

欢迎咨询
返回顶部