中文 | English

星际指挥官

《星际争霸》是有史以来最成功的即时战略游戏,也是人工智能研究领域的重大挑战之一。
它蕴含了长期策略规划、非完全信息博弈、超大规模动作空间等复杂决策问题。
启元自主研发的“星际指挥官”智能体目前已达到人类顶级高手水平,展现出世界一流的算法原创和工程实践能力。

技术挑战

复杂策略博弈

要求智能体同时具备长期规划能力和随机应变能力,需要与对手进行全方位的博弈,

包括宏观经济实力的比拼、科技与兵种的相互克制、战役战术上的指挥决策、进攻时机的选择和把握、战斗单位的微观操控等。

超大决策动作空间

围棋的决策动作空间不超过361,而星际的决策动作空间达到10的26次方,

由决策时机、决策指令、决策主体、决策目标等多维度的决策因素组合而成,复杂度呈指数级爆炸式增长。

非完全信息博弈

对比围棋等完全信息下的博弈,星际拥有“战争迷雾”机制,你无法得知对手完整的信息,必须通过侦察和对手建模来推测对手策略。

相对于德扑的非完全信息博弈,星际又体现了动态性,因为战场瞬息万变,上一时刻侦察所获取的信息,下一时刻又可能变了。

大规模多单位协作

星际的战斗部分需要指挥多兵种、最多上百个单位进行协作配合。

相对来讲,《DOTA2》、《王者荣耀》等游戏只需要5个单位进行协作配合。

毫秒级实时决策

星际作为即时战略游戏,要和职业选手(平均每分钟300次操作)进行对抗,

要求智能体能够在一秒钟之内做出多次快速决策,这对算法模型的性能、工程实现的效率带来巨大的挑战。

研究方向

深度学习

构建大规模神经网络模型,研究空间信息、时序信息和单位信息的表征模型,研究自回归、多任务动作输出模型,研究从长序列输入到长序列输出的决策方法,以及非完全信息下的记忆推理机制。

强化学习

构建新一代分布式强化学习计算框架,支持超大规模多机多卡并行训练。研究基于自我对抗的学习训练方法,设计高效的探索和利用算法,大幅提升样本利用率。

演化学习

构建多智能体学习系统,设计智能体联赛机制,通过增加对手的多样性,不断增强智能体的策略鲁棒性和临机应对能力。

“星际指挥官” 成长史

比赛回放

2020年6月21日,公司在北京举办了“启元星际AI顶级职业选手挑战赛”,我们整理了当天的一些比赛录像,以及赛前与韩宗选手的测试录像,供AI研究人员及星际爱好者进行分析研究。

相关产品

业务咨询

如需了解更多信息,请您留言咨询,我们的业务人员会尽快与您沟通。

留言咨询