> 硬件 >

从《王者荣耀》“开悟”中,窥见人工智能的未来

时间:2023-05-18 19:14:37       来源:网易游戏

现场采访:彭楚微

撰稿:彭楚微、祝佳音


(相关资料图)

“您觉得强人工智能快要出现了吗?”我问邓民文。

“不管是聊天,还是做图,目前还都属于基本工具范畴里的进展。”邓民文这么回答我。他坐在我的面前,似乎把采访看成是启发思考的讨论。当有人提醒我们问答要按照流程时,他挥挥手,示意大家轻松一点,这让他有一点儿学者的气度。

“比如人说话,不仅可以回顾过去,也能预测未来,目前的聊天机器人不能预测未来,因为它是基于历史数据去做的,所以它对于预测是比较弱的。”邓民文说,接着他又补上一句自谦的话:“这个是我的简单思考。”

我和邓民文聊的话题是最近火热的人工智能。上周二,腾讯在成都举行了本年度的STAC科创联合大会。STAC,简单理解,就是用技术联结生活、联结生产,而 “技术”,具体而言指的就是人工智能。

STAC科创联合大会已经举办到了第3届

如邓民文所说,目前的人工智能更为人熟知的是根据既定事实进行回顾和总结的功能,而少有从记忆中总结经验,从而“预测未来”的能力——按我的理解,这里所说的“未来”既包括数十年之后,也包括1秒之后。他说,“决策型人工智能”就是一种能“预测未来”的人工智能——模型根据未来的预期效益,决定此刻的行为。强化学习,是目前实现智能决策的最优方法,按照他的说法,“开悟”平台主要做的就是强化学习研究。

我和邓民文不是第一次打交道。在2年前的程序员节上,我和他就聊过用《王者荣耀》训练人工智能的事儿。邓民文是腾讯AI Lab智能计算中心总监和“开悟”平台的技术负责人,“开悟”是“腾讯牵头构建的,依托腾讯AI Lab和《王者荣耀》技术与研究环境的AI开放研究平台”。

在那篇文章中,我打过一个比方:人工智能就像孩子,想要让孩子懂事儿,你就需要教他知识,让他在世界中奔跑以积累经验——“开悟”就是那个孩子,《王者荣耀》就是让这个孩子积累经验的世界。

让我们好奇的是,时至今日,当初的孩子长大了吗?

“AI向善”

先简单介绍一下人工智能吧。“人工智能”并不是一个新的术语,它已经有几十年的历史了。大约在上世纪80年代初,计算机科学家们就开始设计可以学习和模仿人类行为的算法。如果说人工智能是个孩子,那么,你可以把算法看成这个孩子的教育方式。

现在,“开悟”平台上的人们,正在让人工智能进行强化学习。所谓“强化学习”,就是人工智能不仅能利用现有数据,还可以通过事先设计的奖励规则,让AI在行动中根据反馈自我修正,逐步学会正确的行为模式。

学习是为了更好地对环境进行探索,而探索是为了获取数据反馈进行更好的学习。如果说深度学习是死记硬背式的学习方式,那么,强化学习更像是一个什么都不懂,但被放在考场中不断考试的学生,通过分数(反馈)知道自己做对了什么,在大量尝试中提高分数。

比起监督学习需要的大量标注数据,强化学习的关键是让人工智能自主地对环境进行感知和探索,在和环境交互过程中,产生大量数据。“如果你想实现强人工智能,就要依赖特别多的数据,但是问题在于,现在很多场景数据不多。”邓民文对我说道。

邓民文在STAC科创联合大会上

场景越复杂,越能模拟真实的环境,人工智能强化学习的效果就越好。在过去,学术界用的环境往往比较简单,比如走迷宫,这些环境适合教育入门,却无法对应更深度的研究和发展。这种时候,游戏便自然而然地走入了研究者们的视野。最早是简单的智力游戏,比如棋类,大名鼎鼎的AlphaGo就是这么干的,它可以同时开展很多对战,通过对棋类游戏的规则模拟获得海量的数据。

但棋类游戏是一个封闭系统。尽管它的空间复杂程度对于普通人来说难以想象,却并不是人工智能的算力上限——概括地说,它不够复杂,也不够符合现实。

这时,研究者们就需要更加复杂的环境。多人对抗类游戏由此成为热门选择。早在2017年,《刀塔2》就曾开放内部代码供给研究团队训练人工智能,第二年,名为Open AI的机器人就能在赛场上和职业玩家对战。但其后,《刀塔2》很快停止了对人工智能训练的支持,国内研究者也无从寻找合适的游戏进行学习。

如今,Open AI与《刀塔2》的故事已经家喻户晓

同样在2017年,《王者荣耀》团队与腾讯AI Lab共同研发了策略协作型人工智能,这也就是现在玩家们耳熟能详的“王者绝悟”。按介绍所说,王者绝悟是深度强化学习、多智能体决策等智能课题上的重要研究成果——这得益于《王者荣耀》高复杂度、高挑战性、强协作性等特征。介绍还说,因为《王者荣誉》能够满足研究人员的一系列要求,包括环境的不确定性、信息获取的局限性、个体目标与全局目标的一致性(这些词儿听起来有些吓人)。所以,2019年8月“开悟”平台的上线,对人工智能的研究和发展具有重要意义。

如果再用棋类游戏来类比,围棋和MOBA在状态空间复杂度上有着明显的差异。通俗地说,围棋下一个子就是一次“状态”变更,而MOBA游戏中,一个英雄每向前走一步,就算一个状态变更,还要涉及到多个维度。以数字而言,一局围棋的状态空间大约是10的172次方,而一局《王者荣耀》则可高达10的20000次方。

邓民文对我说:“我们提供的环境比较复杂,所以也给学术界提供了一种新的尝试,它既有原来教育的简单的环境,也有我们比较复杂的环境。”

邓民文口中的新尝试,指的是在2022年11月份, “开悟”平台宣布正式开放“《王者荣耀》AI开放研究环境”申请。开放的环境基于《王者荣耀》1v1对局,用个简单的例子,就是研究者们使用两个AI来操控英雄相互战斗。在《王者荣耀》中,战斗的规则相对复杂——不仅要攻击,要释放技能,技能又影响到走位、状态等等因素,所以非常适合用作学术上博弈问题的研究。

这种博弈环境比围棋更加复杂,也更能够挑起年轻人们的兴趣——如今在视频网站上有一种新潮的风格,叫做“电子斗蛐蛐”,简单来说就是让自己调试好的AI在游戏中进行战斗。年轻人大多是天然的玩家,《王者荣耀》又常常是他们第一款启蒙游戏。谁能拒绝看两个英雄在自己的学习成果下相互战斗呢?

AI也可以在峡谷中展开博弈

正因为“开悟”平台同时满足了研究者的兴趣和要求,所以到目前为止,申请超过了400人次。这远超出了邓民文的想象。邓民文告诉我,他原本并没有很高的预期,因为这个领域的研究比较困难,研究这个领域的学者也不是很多。

“我们把它往前推了一步,从原来缺少的训练环境的现状,这是我们觉得做得比较好的地方。”邓民文笑了起来,还带着点儿欣慰,其慈祥程度让我想起望子多时的父母:当初的孩子终于长大了些,可以对外做点什么了。

当然,如今的“开悟”平台不仅把教育和兴趣相结合,也在理论和实际应用之间承担着桥梁的作用。就像本次大会的主题:“AI(爱)在——合则有灵,万物共生”一样,AI在从游戏中学到的知识将被用到和万物相融的方向。“AI向善”,是会上发言的嘉宾们不断重复的一句话。

通过“开悟”平台,研究者们可以有条件研究博弈问题,博弈的问题不仅是学术前沿的问题,也和现实生活息息相关。邓民文告诉我:“研究机器人的路径规划、智能的物流,或者是交通灯,或者研究虚拟场景下两个智能体的交互。这些场景下,我们这个《王者荣耀》的研究环境比较好,所以才会吸引到很多的学生以及老师去把这个环境下载下来。”

基于游戏虚拟场景,训练AI的通用能力,让更智能的AI在各领域服务人类,是游戏AI研究的核心目标。举个例子,假如AI在王者峡谷中,能够快速分析瞬息万变的环境和对手并作出决策,这个能力运用于同样复杂的真实城市路况,就是自动驾驶AI的雏形;当AI学会了如何控制5个队友配合互助,或许就能在工业环境中操作多个机器人,完成复杂的生产任务。

和高校与科研团队建立长期合作,将现实问题“请”到游戏之中,通过低成本的游戏环境去模拟和解决现实问题。最后,让AI通过在游戏中学习去解决现实中的问题,正是本次大会“AI向善”主题下,“开悟”希望用游戏科技去探索的方向。

“人人有高光”

上午10点30分,和邓民文聊过后,我回到会议厅。此时,《王者荣耀》对外宣布了新的赛事,并提出了“以赛促学,学以致用”的理念。在未来,所有高校的研究者都将能够有机会使用“开悟”平台,参与到“开悟”平台的赛事之中,“人人有高光”。

“赛事”指的是2023腾讯开悟人工智能全国公开赛,在这之前,“开悟”平台所举办的赛事都是以“邀请赛”的形式进行的。而在接下来的几个月间,这项赛事将转变为公开赛。也就是说,在这次大会之后,全国大大小小的院校,不需要资格,就可以获得由《王者荣耀》等平台提供的研究资源、计算平台、评估工具等等其他服务。

STAC科创联合大会上,2023腾讯开悟人工智能全国公开赛正式发布

从这个意义上说,“人人有高光”不仅是说每个人都能参赛,也表示在人工智能科教方面,“开悟”平台在逐步推动AI教育资源的普及——这些服务不仅面向重点大学,更会走进更多普通的本科和大专,开展机器学习、强化学习、多智能体决策等相关课程。邓民文告诉我,将会有许多来自腾讯的老师前去各个高校分享教学经验。

“我们帮助一些高校的老师,培训他们使用我们的工具,这不是说我们就比老师们要更厉害,”邓民文说,“而是我们前期跟4所高校的合作得到了一些经验,把这些经验分享给更多高校,就可以让更多人学会怎么使用我们的工具去教学。”

根据腾讯提供的数据,“王者AI”相关课程合作高校数量从去年的4所增至今年的19所。有超过20个班级的学生参与了“王者AI”相关课程的学习,累计学生超过630名。

授人以鱼不如授人以渔,这听起来很鼓舞人心。

通过人工智能,《王者荣耀》以“开悟”平台和高校教育相联结。游戏是平等的,人人都可以拿起自己手机,在游戏中获得属于自己的高光时刻。“开悟”平台不仅充当了游戏、产业和教育的桥梁,也把游戏本身的平等气质带给了大学生们。

虽然说起来很轻巧,但这同样需要许多人的努力加上合适的时机才能促成。“开悟”平台赛制的转变是个有趣的例子。

从2020年8月的首届“腾讯开悟MOBA多智能体强化学习”大赛起,通过3年的积累,赛事逐渐提升了平台易用性,降低了赛题门槛;准备了体系化的人工智能课程,帮助参赛选手更好地学习和参与比赛。如今,也将会把课程和平台引入高校课堂,把实践教学与竞赛联系起来,实现‘以赛促学,学以致用’,让高校学子有更大的平台验证和锻炼自己。

第3届腾讯多智能体强化学习大赛冠、亚、季军

根据“开悟”平台官网的介绍,在今年,“开悟”将可供测试和研究人工智能的客户端版本调整为了Web版本——这意味着电脑配置比较低的学生,也能够使用“开悟”平台来进行强化学习和多智能体相关的技术研究。同时,“开悟”也拓展了新的迷宫地图——比传统的峡谷PvP地图更简单。这一方面表示,更简单的地图能够让初次接触相关领域的学生更轻松上手研究;同时,应用到比赛中,也能降低相关赛事门槛。

在现场,当宣布完腾讯“开悟”AI赛事将从往年的定向邀请模式改为公开报名模式的时候,我听见一阵掌声响起。当时我正在会议厅门外站着,这给我提供了一个站在角落旁观整个会场的机会,过了一会,我注意到周围站了不少年轻人,掌声也大多由他们而起。

他们是各个高校的学生,像是正在发芽的种子,接受着外界的阳光和雨露,他们知道自己想要什么,并为之鼓掌欢呼。他们也是中国人工智能产业的希望。

写在腾讯STAC⼤会后

成都的5月充满了水和雾气,这是万物蓬勃生长的季节,给人一种希望感,正如这次大会给我的感觉。

人工智能正迎来猛烈发展的时期。在今年,国家出台了一系列支持人工智能的规划纲要和行动计划,将人工智能明确为建设创新型国家,实现新型工业化、信息化,推动经济高质量发展必不可少的技术基础。随着过去一年中,各类绘图、聊天AI的出现,以AI为典型代表、基于大模型应用的技术创新和产业成果,也开始在我国全面展开。

《王者荣耀》和“开悟”平台正在做的事儿就是“播种”,通过自身的影响力为我国AI产业的未来播下希望的种子,并温和地对待它们,尽力让每一颗种子能够拥有成长的条件。某种程度上,能够这样做,并选择这样做的《王者荣耀》是一款电子游戏理想的样子:它好玩,影响力足够大,并且足够成功,在做好自己分内事情的基础上开始思考更大的命题:科学的发展、教育的公平,让更多的人——无论玩游戏的人,还是不玩游戏的人——都变得更好。

3年来,“开悟”平台播下的种子,其实已经初见成效,腾讯与西南交大合作的智慧交通项目进行到了实验阶段,预计今年下半年进入校内场景测试。

一切并没有那么快,当初的那个孩子,如今仍然没有长大成人,它只是长大了一些。但所有人都是从孩童时代开始的,AI技术已经开始在用自己的一点点努力去带动更多人成长,并回报整个社会。

腾讯AI Lab总经理杨巍

“最困难(的时候)是我们之前跟《王者荣耀》一起做这件事情时,我们做这件事情,可以说是史无前例的。”在采访的尾声,腾讯AI Lab总经理杨巍这样对我说。

既史无前例,也希望无穷。

关键词: