【绝悟】腾讯最强策略协作型AI开放人机对战,五一节放松一下吧!

注:决策智能与机器学习,深耕AI脱水干货

【绝悟】腾讯最强策略协作型AI开放人机对战,五一节放松一下吧!

来源 | 腾讯AI实验室

作者 | 腾讯AI实验室

编辑 |  九三山人

5月1日至4日,腾讯 AI Lab 与王者荣耀联合研发的策略协作型AI「绝悟」将首次开放大规模公众体验活动,限时四天,公众通过手机就能感知 AI 在复杂决策和团队协作上的强大能力,亲身体验国际顶尖的AI研究应用成果。

在AI**围棋难题之后,多人在线战术竞技类游戏(MOBA)成为测试和检验前沿人工智能的复杂决策、行动、协作与预测能力的重要平台。腾讯 AI Lab 从2017年底携手MOBA类代表王者荣耀展开对绝悟的研究,迅速取得了技术突破,绝悟在2018年通过人类战队测试,2019年就达到电竞职业水平,目前正在向顶级职业水平冲刺。

绝悟的1v1版本曾在2019年的China Joy上开放,在与顶级业余玩家的 2100 多场体验测试中胜率为 99.8%,此次是绝悟 5v5 版本首次公开。公众可下载王者荣耀客户端最新版本,从大厅入口进入「挑战绝悟」测试,绝悟在六个关卡中的能力将不断提升,用户可1v1单人或5v5组队挑战。

4月27-29日,绝悟提前开放给部分主播队体验

研究意义

绝悟背后是一种名为「强化学习」的AI前沿技术,其思想源自心理学中的行为主义理论,因此该学习方法与人类学习新知识的方式存在一些共通之处。而游戏作为真实世界的模拟与仿真,一直是检验和提升 AI 能力的试金石,复杂游戏更被业界认为是攻克 AI 终极难题——通用人工智能(AGI)的关键一步。如果在模拟真实世界的虚拟游戏中,AI 学会跟人一样快速分析、决策与行动,就能执行更困难复杂的任务并发挥更大作用。世界顶级科技公司均在推进「AI+游戏」研究,腾讯也一直是此类研究的先行者,希望不断探索找到实现类似人类智能的通用智能的方法。这是一个宏大而又长远的目标,腾讯将砥砺前行。

核心技术:强化学习

腾讯 AI Lab 不仅研究王者荣耀为代表的MOBA类游戏,还同步推进了多类AI+游

自 2017 年启动绝悟 AI 研究以来,腾讯 AI Lab 也陆陆续续发过多篇预印版论文。今年年初,相关论文更是被人工智能顶会 AAAI-2020 接收

和其他 AI 游戏项目一样,绝悟 AI 背后是「强化学习」技术。回顾腾讯 AI Lab AAAI 论文《Mastering Complex Control in MOBA Games with Deep Reinforcement Learning》,我们可以发现更多技术细节,论文一作叶德珩博士也曾在机器之心平台上为读者们做过视频分享。

论文地址:https://arxiv.org/abs/1912.09729

腾讯 AI Lab 设计了一种深度强化学习框架,并探索了一些算法层面的创新,对王者荣耀这样的多智能体竞争环境进行了大规模的高效探索。在此论文中中,研究人员们设计的神经网络架构包含了对多模态输入的编码、对动作中相关性的解耦、探索剪枝机制以及攻击注意机制,以考虑 MOBA 1v1 游戏中游戏情况的不断变化。

面对需要高度复杂的动作决策的 MOBA 游戏而构建游戏 AI 智能体,在系统设计方面,腾讯 AI Lab 的研究者们提出了一种深度强化学习框架,能提供可扩展的和异步策略的训练;在算法设计方面,研究者开发了一种用于建模 MOBA 动作决策的 actor-critic 神经网络。

特别的是,这种算法的网络优化使用了一种多标签近端策略优化(PPO)目标,并提出了对动作依赖关系的解耦方法、用于目标选取的注意机制、用于高效探索的动作掩码、用于学习技能组合 LSTM 以及一个用于确保训练收敛的改进版 PPO——dual-clip PPO。

【绝悟】腾讯最强策略协作型AI开放人机对战,五一节放松一下吧!

这个架构包含四个模块:强化学习学习器(RL Learner)、人工智能服务器(AI Server)、分发模块(Dispatch Module)和记忆池(Memory Pool)。

腾讯曾展示了使用射手英雄狄仁杰进行训练的例子。可以观察到 Elo 分数会随训练时长而增长,并在大约 80 小时后达到相对稳定的水平。此外,Elo 的增长率与训练时间成反比。

【绝悟】腾讯最强策略协作型AI开放人机对战,五一节放松一下吧!

「绝悟」从零开始训练 30 小时上王者。

技术应用

绝悟一方面将发力电子竞技领域。作为数字时代最受年轻人欢迎的运动,电竞已于2018年成为亚运会表演项目,中国队参赛获两金一银的佳绩。与传统体育项目一样,电竞职业选手也需要手眼脑协调、策略和操作快速反应、团队协作精神及大量刻苦训练。借助在算法和数据方面的优势,绝悟可为职业选手提供数据、战略与协作类实时分析与建议,及不同强度与级别的专业陪练。以前沿科技推动电竞专业化发展,AI 将继续推动中国电竞在全球范围内保持领先。另一方面,绝悟能够参与游戏设计,比如英雄角色的平衡性测试与参数调整,提高测试效率,优化角色平衡性,还可参与MOBA新地图研发等。

生态建设

腾讯 AI Lab 还与王者荣耀联合推出了AI+游戏开放平台「开悟」,打造产学研生态。王者荣耀开放脱敏数据、游戏核心集群(Game Core)和工具,腾讯AI Lab开放强化学习、模仿学习的计算平台和算力,邀请高校与研究机构共同推进AI前沿研究,让开悟成为展示多智能体领先研究的舞台。开悟将在2020年12月举办第一届水平测试。

长远目标

腾讯 AI Lab 不仅研究王者荣耀为代表的MOBA类游戏,还同步推进了多类AI+游戏研究。在棋牌类,研发了三年内夺得四次世界冠军、担任中国国家围棋队陪练的AI「绝艺」;在RTS类游戏代表星际争霸2里,在一个不完全信息博弈场景,需在复杂连续的决策空间下进行面向长期决策的决策的游戏中,研发出首个能在「星际争霸 II」全场游戏中打败「开挂」内置 AI 的智能体;在FPS射击类游戏中,我们着力解决3D环境建模、感知实现视角的转换和移动寻人等难题,先是夺得了VizDoom AI竞赛历史上首个中国区冠军,然后FPS AI上线手游《穿越火线-枪战王者(CFM)》广获好评。

长远来看,AI+游戏研究将是腾讯攻克 AI 终极研究难题——通用人工智能(AGI)的关键一步。AGI 代表研发能在通用系统中执行多种复杂命令,达到或超越人类水平的 AI ,从绝艺到绝悟,不断让 AI 从0到1去学习进化,并发展出一套合理的行为模式,这中间的经验、方法与结论,长期来看,有望在大范围内,如医疗、制造、无人驾驶、农业到智慧城市管理等领域带来更深远影响。

参考资料

机器之心,挑战王者荣耀人工智能绝悟,我和 AI「55 开」

交流合作

请加微信号:yan_kylin_phenix注明姓名+单位+从业方向+地点,非诚勿扰。

【绝悟】腾讯最强策略协作型AI开放人机对战,五一节放松一下吧!