启元世界：打造AI决策智能体，用小样本实现10的26次方复杂空间决策 _AI决策智能体

2020年ChinaJoy周末在上海如期举行，今年这场备受关注的数字娱乐盛会融合了更多前沿科技的元素。
其中，国内决策AI技术公司启元世界在会上展出了与人对战的星际AI——启元星际指挥官，及与人配合协作的娱乐智能体，引起了业界轰动。
“人机对战”一直以来都是AI玩家的角逐之地。在AlphaGo征服世界围棋冠军后，这一趋势显得更加明显。不过围棋策略类游戏已不足以展现玩家的全方位AI技术能力，于是，兼具战术策略博弈+即时对抗的《星际争霸》成为了下一个目标。
在6月举办的《星际争霸》人机大战中，启元AI“星际指挥官”不负众望，以两个2：0的成绩先后击败人类顶尖职业选手——全国冠军黄慧明（TooDming）以及中国星际最强人族选手李培楠（TIME）。

文章插图
开发这款“星际指挥官”的公司为启元世界，成立于2017年8月，是一家AI认知决策技术公司，致力于利用深度学习、强化学习和超大规模并行计算等技术，搭建智能体应用训练云平台，为企业客户提供端到端的智能体开发、训练、评估和部署工具，帮助其快速构建智能体应用。
公司核心成员大多来自BAT、Netflix、香港科大、伯克利等国内外知名高科技企业和一流院校，具备深度学习、强化学习、云计算等核心技术的自主研发能力，且在产品打造方面拥有丰富的行业应用经验。
启元世界CEO袁泉在技术产品领域积淀深厚，曾担任阿里认知计算实验室负责人和资深总监，是手机淘宝、手机天猫推荐算法团队缔造者。
“和DeepMind、OpenAI类似，以在线游戏为试验平台，以行业赛事作为技术验证，快速打磨决策智能体训练云平台服务相关行业，是启元世界近期正在做的事。”袁泉告诉创业邦。

文章插图
据悉，成立至今，启元世界选择各类典型游戏打磨新一代决策AI技术，已在2018年底获NeurIPS 2018多智能体强化学习比赛冠军， 2019年中旬，启元星际指挥官3:0击败人类黄金选手， 2020年中旬获CVPR 2020机器人虚实迁移挑战赛冠军。
对于此次在星际争霸中打败职业冠军选手，袁泉表示，相比于围棋人机对战，这次比赛中增加了复杂场景感知、分析决策、长期规划运营和实施操作四个维度的技术难度：
首先，对复杂场景的感知方面，围棋棋盘环境简单，只需按照落子顺序操作即可，但星际争霸中需要启元AI实时感知周围环境，在毫秒级做出判断；
其次，在决策方面，启元AI必须在十几毫秒时机内快速做出决策，保证决策准确性；
然后，在定位方面，由于围棋棋盘规格固定为16×16 ，难度较低，而此次比赛中，决策空间高达10的26次方，还需要从200个作战单位中选出作战主体；
同时，在具体操作中，还需要依托、感知、分析、定位能力，精准空投到地图的指定位置上，技术门槛颇高。
“这四个维度的能力所带来的乘数效应的叠加，最终实现了看似不可能的‘奇迹’ 。”袁泉告诉创业邦。
在挑战赛结束后，部分网友表示， AI的高EPM值似乎在其中起到了天然优势。对此，启元世界技术团队在赛后进行技术分析后解释：对局过程中， AI的平均APM值为250左右，仅略高于职业选手李培楠237左右的水平，并不会影响此次比赛成绩。
当然，此次比赛只是启元世界AI技术能力的一个缩影，其背后是强大底层技术的有力支撑。
据袁泉透露，启元世界智能云训练云可以实现AI自我训练，通过小样本学习，再利用自主搭建的智能体COMMANDER神经网络，同时结合高效率的群体演化训练方法，不仅可在有限的算力条件下，增强智能体的鲁棒性，还实现智能体的快速进化。而此次比赛中，启元世界仅用了顶尖科技公司1%的算力。