AlphaGo们从游戏走进现实

科技

2022-08-23 04:08

古埃及文字

公元前6世纪，古埃及法老卜萨梅蒂库斯好奇人类语言的起源。

他设计了一个实验，将两个出生不久的婴儿丢到旷野，只安排一位哑巴牧羊人看管，保障生活的同时，严禁婴儿与人交流。

萨梅蒂库斯迫切想要知道，这两个婴儿开口第一句话，是什么语言。

两年后实验结果出来了，除了碰巧蹦出一个听上去像“bekes”的单词，两岁多的婴儿什么话都不会说。

更加不幸的是，即便婴儿回归社会，也无法学会说话，就算是投入大量教育也不起作用。

这个历史上著名的试验，被后世尊称为“历史之父”的古希腊历史学家希罗多德记录了下来。

1789年法国发生了类似的事件，在阿维隆地区森林，人们发现了一个十多岁的野孩子，赤身裸体、看上去又聋又哑。

伊塔德医生检查了他的身体，排除了聋哑方面的生理缺陷，不会说话是因为从小被人遗弃长期脱离社会所致。

医生给野孩子起名维克多，以近乎无限的耐心教导他融入社会。维克多对医生产生了依赖与感情，甚至能说出“牛奶”的单词。

总结经验教训，伊塔德成了全球聋哑人口语教育学开创者。而维克多直到40岁去世，终其一生也未成功说出一句完整的话。

人类学家认为，人类语言能力激发，存在一个婴幼儿模仿学习的“关键期”，一旦过了这段时期，语言能力就会消失殆尽。

这意味着，我们大脑语言功能区的发育完善，不仅取决于先天的基因，也取决于后天的环境交互。

1970年法国电影《野孩子》，取材于维克多真人真事

模仿人类大脑的人工智能，存在类似的情况，在脱离学界进入产业界之后，主要是沿着两条路线发展。

一条是连接主义，致力于模拟大脑神经网络构建人工神经网络，通过海量数据喂养成长，这种模拟方式叫做深度学习。

另一条是行为主义，致力于模拟生物在自然界中的进化，通过与环境交互试错迭代成长，这种模拟方式叫做强化学习。

深度学习好比请一个英语老师教你学英语，强化学习好比把你放到英国与人交流学英语。

深度学习算法结合算力与数据，帮助人工智能在2012年取得视觉识别上的突破，并于2015 年超过人类，还发展出语音语义识别能力，占据了90%以上的人工智能市场份额，是为感知智能。

强化学习算法需要更大的算力，在环境交互中获取数据，不断优化决策方案，帮助人工智能在2016年战胜人类围棋冠军，这就是大名鼎鼎的AlphaGo，是为决策智能。

两种算法并不冲突可以结合，叫做深度强化学习算法，其实质就是将历史经验与未来探索结合在了一起。

起初AlphaGo用深度学习网罗人类历史上的棋谱，李世石相当于单挑古往今来的围棋大师组团，而且对手不知疲倦从不犯错，败给AlphaGo不冤枉。

后来AlphaGo升级到2.0，在棋谱经验之外用强化学习自我训练自我演化，走出了人类历史上从未有过的棋路，让柯洁痛哭AlphaGo不按套路下棋，有如跟外星人博弈。

强化学习的强大来自几乎无限的时间，AlphaGo短短数月内自我对弈了超过三千万局，倘若以业余棋手平均一小时一局计算，人类习得这样的决策能力至少需要4000年。

如果说打败李世石的是过去三千年的人类围棋智慧，那么打败柯洁的就是未来一万年的围棋走法。

2020年DeepMind发布了MuZero，这一次AI连围棋规则都不知道，MuZero可以舍弃任何信息，只保留有用的元素（即价值、策略和奖励），以及追求赢棋的目标。

MuZero就如婴儿一样，白纸一张来到世上，唯一凭借的是要活下去活得好的自我驱动与自主学习能力，它不仅能下围棋，还会下将棋和国际象棋，还在30多款雅达利游戏中展示出了超人类表现，让人类看到了创造通用人工智能的可能性。

2017年柯洁完败于AlphaGo，大哭“它不按套路下棋”

DeepMind开发AlphaGo等一系列AI下棋，当然不只是打败人类扬名，更在于把技术卖个好价钱获利，高级点的说法就是要改变世界。

要实现这样的目的，AlphaGo必须作用于实体经济，当年很多人恐慌人工智能比人类更聪明，担心自己饭碗不保。而DeepMind确实也表示要把AlphaGo用在医疗和能源领域，以此提高看病效率和能源效率。

但是6年过去了，江湖上少有AlphaGo的消息，人工智能主要是在感知层面承担低阶重复性劳动，比如小区人脸识别开门，高效但不聪明。

一个人聪明与否，在于其分析推理决策的能力，决策智能在棋类游戏中大获成功，如何将这种能力迁移到现实世界？

2006年深度学习算法突破之后，又过了6年，才迎来算力与数据的成熟，进而产生实际应用，决策智能也在等待属于它的时机。

这个时机可以分为两个层面，一是突破强化学习算法，二是构建虚实交融的环境。

突破强化学习算法，主要是借助更加复杂困难的游戏训练AI。除了下棋，AI还要挑战打牌搓麻将，以及《星际争霸》《王者荣耀》等即时战略游戏。

围棋复杂度是10的360次方，《王者荣耀》的复杂度达到了10的20000次方，而宇宙中的原子总数也不过10的80次方。

2020年前后，世界上最复杂的游戏都被AI一一征服，人类职业玩家甘拜下风，接下来的场景自然是更加复杂困难的现实世界。

AI解决现实世界难题，最大的麻烦还不在于复杂性，因为我们不需要AI解决所有问题，而是集中在某个领域就好，其复杂性恐怕不如围棋博弈。

最大的麻烦是现实世界试错成本太高，试想AI直接在你家门口道路上尝试自动驾驶，那是要出人命的。而在游戏世界中试错几万次都无所谓。

解决的办法是构建虚实交融的环境，我们可以建设模拟城市交通的虚拟世界，将在虚拟世界中试错出来的最优策略迁移到现实世界。

近来元宇宙的概念爆发，就反映了世界正在走向虚实交融，方便人工智能大行其道。

真实宇宙中，在无数的巧合中诞生了地球，地球上环境适宜，恰好能够孕育生命，并最终进化出了迄今为止智能水平最高的人类。

在元宇宙中，智能体有机会在更加精心设计的环境中进行更加大胆甚至天马行空的行为和演化。

从这个角度来理解，元宇宙的意义便是通过无数人类的建设和互动，为通用人工智能的诞生和进化提供一个足够开放和巨大的环境和生态，为超越人类智能水平的AI提供土壤和生存空间。

或许，这才是各大科技巨头押宝元宇宙的根本原因。

元宇宙为人工智能提供进化的无限空间

2022年，越来越多的决策智能应用于实体经济，AlphaGo们正在叩开游戏与现实之间的大门。

9月，特斯拉将发布人形机器人，集感知-决策-行动能力于一身，其中决策能力来自强化学习，马斯克声称这将是比电动汽车更大的产业。

7月，AlphaFold破解了几乎所有已知的蛋白质结构，将颠覆制药业。而英伟达用AI设计电路，面积比最先进EDA少25%，速度更快、更加高效，将掀起一场芯片设计革命。

2月，DeepMind的决策智能成功控制了托卡马克装置中的等离子体，推近了可控核聚变的星辰大海。就在同一时间，AlphaCode编写出了媲美人类的计算机程序。

国内王者荣耀与腾讯AI Lab的开悟平台也在游戏中锻炼AI，并与西南交大合作智慧交通，显示了AI决策能力的强大。

立足成都的产业经济决策智库雨前顾问注意到了这些现象，近日与成都市人工智能产业生态联盟联合发布了一篇研究报告——《借助游戏抢抓新一代人工智能产业机遇》。

这是国内首个系统分析游戏如何推动人工智能产业发展的研究报告，基于大量数据与事实，指出人工智能产业正在从感知智能迈向决策智能，将引领新一轮科技产业变革，其中游戏发挥了关键作用。

报告表示，AI通过游戏训练获得长线推演、随机应变与多智能体博弈协作等多种决策能力。大型游戏同时也推动了虚拟仿真、AR/VR沉浸式体验智能终端的发展。

随着虚实共生的元宇宙时代到来，AI的决策能力不仅能够增强游戏娱乐性，也开始在金融、交通、汽车、机器人等实体领域产生应用。

报告强调，当前国内并无一个城市聚焦决策智能赛道制定专项规划，拥有《王者荣耀》的成都具备研发、算力与场景三大全国领先优势，有望成为新一代人工智能产业的领跑者。

感兴趣的同学可以在文末扫描长按二维码，或点击阅读原文下载报告全文。

有关人类语言的起源，恩格斯有段精妙的阐述。

他在其著作《劳动在从猿到人转变过程中的作用》中提出：从猿到人的转变是从手部开始的，手不仅是劳动的器官，还是劳动的产物。

为了适应新的需求，人类手部的肌肉、骨骼都有了全新的进化，这些进化演变出更多复杂的动作，进而带动人体其他部位的发展。

“劳动与技术的产生与发展，离不开人与人之间的互相协作，人们之间的协作关系促使了语言的产生。”

劳动、技术、语言三者结合，促进了人类脑部的发展，人类的各种感觉器官也得到了进一步的开发。

与此同时，脑部和其他感觉器官在发展到一定程度后，又可以反过来推动劳动、技术及语言的发展。

醋醋相信人工智能的发展，亦是如此。

扫描或长按识别二维码下载完整报告

点击阅读原文下载完整报告

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章