启元世界:打造AI决策智能体,用小样本实现10的26次方复杂空间决策

2020年ChinaJoy周末在上海如期举行 , 今年这场备受关注的数字娱乐盛会融合了更多前沿科技的元素 。
其中 , 国内决策AI技术公司启元世界在会上展出了与人对战的星际AI——启元星际指挥官 , 及与人配合协作的娱乐智能体 , 引起了业界轰动 。
“人机对战”一直以来都是AI玩家的角逐之地 。在AlphaGo征服世界围棋冠军后 , 这一趋势显得更加明显 。不过围棋策略类游戏已不足以展现玩家的全方位AI技术能力 , 于是 , 兼具战术策略博弈+即时对抗的《星际争霸》成为了下一个目标 。
在6月举办的《星际争霸》人机大战中 , 启元AI“星际指挥官”不负众望 , 以两个2:0的成绩先后击败人类顶尖职业选手——全国冠军黄慧明(TooDming)以及中国星际最强人族选手李培楠(TIME) 。

启元世界:打造AI决策智能体,用小样本实现10的26次方复杂空间决策

文章插图
开发这款“星际指挥官”的公司为启元世界 , 成立于2017年8月 , 是一家AI认知决策技术公司 , 致力于利用深度学习、强化学习和超大规模并行计算等技术 , 搭建智能体应用训练云平台 , 为企业客户提供端到端的智能体开发、训练、评估和部署工具 , 帮助其快速构建智能体应用 。
公司核心成员大多来自BAT、Netflix、香港科大、伯克利等国内外知名高科技企业和一流院校 , 具备深度学习、强化学习、云计算等核心技术的自主研发能力 , 且在产品打造方面拥有丰富的行业应用经验 。
启元世界CEO袁泉在技术产品领域积淀深厚 , 曾担任阿里认知计算实验室负责人和资深总监 , 是手机淘宝、手机天猫推荐算法团队缔造者 。
“和DeepMind、OpenAI类似 , 以在线游戏为试验平台 , 以行业赛事作为技术验证 , 快速打磨决策智能体训练云平台服务相关行业 , 是启元世界近期正在做的事 。”袁泉告诉创业邦 。
启元世界:打造AI决策智能体,用小样本实现10的26次方复杂空间决策

文章插图
据悉 , 成立至今 , 启元世界选择各类典型游戏打磨新一代决策AI技术 , 已在2018年底获NeurIPS 2018多智能体强化学习比赛冠军 , 2019年中旬 , 启元星际指挥官3:0击败人类黄金选手 , 2020年中旬获CVPR 2020机器人虚实迁移挑战赛冠军 。
对于此次在星际争霸中打败职业冠军选手 , 袁泉表示 , 相比于围棋人机对战 , 这次比赛中增加了复杂场景感知、分析决策、长期规划运营和实施操作四个维度的技术难度:
首先 , 对复杂场景的感知方面 , 围棋棋盘环境简单 , 只需按照落子顺序操作即可 , 但星际争霸中需要启元AI实时感知周围环境 , 在毫秒级做出判断;
其次 , 在决策方面 , 启元AI必须在十几毫秒时机内快速做出决策 , 保证决策准确性;
然后 , 在定位方面 , 由于围棋棋盘规格固定为16×16 , 难度较低 , 而此次比赛中 , 决策空间高达10的26次方 , 还需要从200个作战单位中选出作战主体;
同时 , 在具体操作中 , 还需要依托、感知、分析、定位能力 , 精准空投到地图的指定位置上 , 技术门槛颇高 。
“这四个维度的能力所带来的乘数效应的叠加 , 最终实现了看似不可能的‘奇迹’ 。”袁泉告诉创业邦 。
在挑战赛结束后 , 部分网友表示 , AI的高EPM值似乎在其中起到了天然优势 。对此 , 启元世界技术团队在赛后进行技术分析后解释:对局过程中 , AI的平均APM值为250左右 , 仅略高于职业选手李培楠237左右的水平 , 并不会影响此次比赛成绩 。
当然 , 此次比赛只是启元世界AI技术能力的一个缩影 , 其背后是强大底层技术的有力支撑 。
据袁泉透露 , 启元世界智能云训练云可以实现AI自我训练 , 通过小样本学习 , 再利用自主搭建的智能体COMMANDER神经网络 , 同时结合高效率的群体演化训练方法 , 不仅可在有限的算力条件下 , 增强智能体的鲁棒性 , 还实现智能体的快速进化 。而此次比赛中 , 启元世界仅用了顶尖科技公司1%的算力 。


推荐阅读