英伟达Jim Fan演讲,Andrej Karpathy最新博文,苹果Vision Pro测评公众号新闻2024-02-03 03:02英伟达高级科学家Jim Fan,在TED AI 2023活动上发表演讲,介绍到,AI下一个前沿将是基础智能体Foundation Agent,一个掌握广泛技能,控制许多身体,并能泛化到多个环境中的单一算法。特斯拉前AI与视觉团队总监,现OpenAI科学家Andrej Karpathy,近日在个人博客上发文(后文章不可见),以自动驾驶技术与商用进展为例,展望AGI进步。科技媒体The Verge资深编辑尼莱·帕特尔,对苹果头显Vision Pro进行亲测,总结令其感到满意与不足地方。帕特尔认为,Vision Pro显示器堪称技术奇迹,拥有最好视频传输体验,手动与眼动追踪是飞跃,与苹果生态系统无缝对接,在空间里任意缩放窗口功能很有趣。帕特尔不满意地方,包括Vision Pro售价昂贵,手动与眼动追踪可能不一致,容易让人产生孤独体验等。2024年1月29日,马斯克在社交平台X上发文表示,脑机接口公司Neuralink已进行首例脑机接口设备人体移植手术,移植者目前恢复良好。神经元脉冲监测初期结果显示,Neuralink技术将非常有前景。巴西神经生物学家、美国杜克大学医学院神经科学教授、被誉为脑机接口之父的米格尔·尼科莱利斯,近日在访谈中表示,脑机接口与AI一样,目前存在大量炒作问题,不看好Neuralink这类侵入式脑机接口方案,并揭示更多关于脑机接口技术背后深层次真相与发展现状。凭借ChatGPT成为世界顶级明星公司的OpenAI,已诞生叛逃19子,包括OpenAI创始人之一Matt KrisiloG、前运营主管Jeff Arnold,以及一大批研究与技术科学家。他们纷纷自立门户,创办AI初创公司,有我们熟知的Anthropic,还有3位华人科学家组成的Covariant AI创始团队,这些公司已总计完成80亿美元融资。本期长期主义,选择英伟达高级科学家Jim Fan最新TED演讲、Andrej Karpathy最新博文、苹果Vision Pro测评、Neuralink首例人脑设备植入手术、脑机接口之父米格尔·尼科莱利斯访谈、OpenAI 19名前成员出走创业,新智元、瓦砾村夫、腾讯科技发布,六合商业研选精校,分享给大家,Enjoy!正文:全文24,228字预计阅读49分钟英伟达高级科学家Jim Fan最新TED演讲:AI下一个前沿是基础智能体时间:2024年1月24日来源:新智元字数:2,960英伟达高级科学家Jim Fan,在TED AI 2023活动上发表演讲,介绍到,AI下一个前沿将是基础智能体Foundation Agent,一个掌握广泛技能,控制许多身体,并能泛化到多个环境中的单一算法。Jim Fan提出Foundation Agent,一个可在虚拟世界与现实世界里泛化的通用智能体模型。他具体解释这项技术将如何从根本上改变我们生活,渗透到从视频游戏与元宇宙,到无人机、仿人机器人等方方面面,并探讨单一模型如何掌握跨越这些不同现实的技能。Jim Fan认为,基础智能体应该在3个维度上进行扩展。技能:能解决的任务数量;具身:能控制身体形态的多样性;现实:智能体能掌握的虚拟或物理空间的数量。这包括有不同规则的游戏、模拟与真实世界场景。我们为什么想要一个单一的基础智能体,而不是许多更小的模型?在每个AI领域发展历史中,都能发现这样模式:从专家模型->通用模型->专业化的通用模型。这里的专业化通用模型,通常远比原先的专家模型更强大,就像LlaMA精炼版本远超过5年前定制化NLP系统一样。Jim Fan本人还分享了演讲时心得:TED演讲时,我脚下只有一个信息显示器,只显示当前幻灯片与计时器,这意味着我需完全记住整段演讲。一开始让我很担心,事实证明,这是与听众建立联系,直接触及他们心灵的最佳方式。TED演讲全文:2016年春天,我坐在哥伦比亚大学一间教室里,并没有专心听讲。相反,我正用电脑观看一场棋盘游戏锦标赛。这不是一场普通比赛,一场非常、非常特别的比赛,AlphaGo与李世石开启对决。这场比赛,AI在5盘棋中赢了3盘,成为有史以来第一个在围棋比赛中击败人类冠军的棋手。到现在,我仍然记得那天自己见证历史的激动心情,AI智能体终于进入主流的时刻。但当兴奋褪去后,我意识到,AlphaGo虽然强大,但它只能做一件事,只能做一件事。它无法玩任何其他游戏,比如《超级马里奥》、《我的世界》,当然也不能帮你洗脏衣服,或今晚为你做一顿丰盛的晚餐。我们真正想要的是:像机器人Wall-E那样多才多艺的AI智能体,像《星球大战》各种各样机器人的载体或化身。又或是像《头号玩家》一样,可以跨越无限的虚拟或现实世界。我们如何在不久的将来实现这些科幻想法?如下图是迈向通用AI智能体的一个实践者指南。当前大多数研究工作按以下三个维度展开:AI智能体可以掌握的技能数量;可以控制的身体形态或载体;以及它所能掌握的现实情况。AlphaGo就在左下角位置,右上角才是我们真正要达到目标。Voyager玩转我的世界接下来,让我们一次看一个维度。2024年早些时候,我带领Voyager项目,这是一个能在多种技能上大规模扩展的智能体。没有任何游戏能比《我的世界》更好支持无限的创造性玩法。这有一个有趣事实:《我的世界》有1.4亿活跃玩家,这个数字相当于英国人口2倍多。这款游戏之如此受欢迎,是它是开放式的:没有固定游戏情节,用户可以在游戏中做任何想做的事情。当我们让Voyager在《我的世界》中自由活动时,会发现它可以在没有任何人干预情况下,连续玩上几个小时游戏。这段视频展示Voyager在一次游戏中连续行动的片段。它可以探索地形,开采各种材料,与怪物战斗,制作数百种配方,并解锁一个不断扩展的技能树。其中奥妙是什么?核心要义是编码即行动。首先,我们使用社区制作的Minecraft JavaScript API,将3D世界转换为文本表示。Voyager调用GPT-4,用JavaScript编写代码片段,这些代码片段将成为游戏中可执行技能。就像人类工程师一样,Voyager会犯错。它并不总是在第一次尝试时,就正确完成程序。我们为它添加自我反思机制,以便改进。自我反思有三个反馈来源:JavaScript代码执行错误;智能体状态,如健康与饥饿;世界状态,如附近地形与敌人。Voyager会执行一个动作,观察这个动作对世界与自身影响,反思如何才能做得更好,并尝试一些新的行动方案,不断重复。一旦技能成熟,Voyager就会把它保存到技能库中,作为一种持久记忆。你可以把技能库看作完全由语言模型编写的代码库。通过这种方式,Voyager在《我的世界》中探索与实验过程中,能以递归方式扩展自身能力。让我们一起看个例子。Voyager发现自己很饿,需尽快获得食物。它检测到附近有四个实体:一只猫、一个村民、一头猪、一些小麦种子。Voyager开始内心独白:我要杀死猫,还是村民,来获取食物?这主意糟透了。小麦种子如何?我可以用种子种植农场,但需很长时间。对不起,小猪,你被选中。随后,Voyager在它物品栏中发现一块铁。于是,它从技能库中回想起旧技能来制作铁剑,开始学习一个新技能猎猪。现在我们知道,不幸的是,Voyager不是素食主义者。还有一个问题:Voyager如何无限期探索下去?我们只给了它一个高级指令,尽可能多获取独一无二物品。Voyager自己实现一个curriculum:主动找到逐步更难、更新颖的挑战来解决。将所有这些整合在一起,Voyager不仅能掌握,还能在过程中发现新技能。我们没有预先编程任何内容,一切都是Voyager主意。当一个智能体永远充满好奇心,永远追求新探险,这就是我们所说的终身学习。与AlphaGo相比,Voyager能做的事情非常多,但仍只能在《我的世界》中控制一个身体。MetaMorph让AI有多个身体问题来了:我们能否有一个可以在不同载体上工作的算法?一起来看MetaMorph,这是我在斯坦福共同开发的一个项目。我们创建了一个基础模型,它不仅能控制一个机器人,还能控制数千个手臂与腿部配置各异的机器人。Metamorph能处理来自不同机器人身体的各种运动特征。如下我们如何创建MetaMorph的直观方法。首先,我们设计一个特殊的词来描述身体部件,这样每个机器人本质上就是用这种词写成的一句话。然后,我们对其应用Transformer,就像ChatGPT一样,MetaMorph写出的不是文本,而是运动控制。我们展示了MetaMorph能控制成千上万个机器人上下楼梯、穿越复杂地形,避开障碍物。放眼未来,如果我们可以大大扩展这个机器人词汇量,我设想MetaMorph 2.0将能泛化到机器手、人形机器人、狗、无人机,甚至更多领域。与Voyager相比,MetaMorph在多体控制方面迈出一大步。不同虚拟环境模拟现在,让我们将一切再提升一个层次,在不同环境之间转移技能与载体。来看IsaacSim,这是英伟达模拟平台。IsaacSim最大优势是,将物理模拟加速到比实时快1,000倍。例如,这个小人只用3天模拟时间,就通过10年的高强度训练,学会令人印象深刻的武术。这很像电影《黑客帝国》中虚拟训练场景sparring dojo。这个赛车场景是,仿真技术跨过恐怖谷的地方。多亏硬件加速光线追踪技术,我们才能渲染出极其复杂场景,呈现出令人叹为观止的细节。你在这里看到的逼真效果,将帮助我们训练计算机视觉模型,这些模型将成为每个AI智能体眼睛。更重要的是,IsaacSim可以程序化生成具有无限变化的世界,没有两个世界看起来一样。这里有一个有趣想法。如果一个智能体能掌握10,000个模拟,它很有可能会泛化到真实物理世界,我们世界也只是第10,001个实境。随着我们在这张图上进展,我们最终会到达右上角,那是一个能在所有三个轴上进行泛化的单一智能体,那就是基础智能体。我相信,基础智能体的训练,将与ChatGPT非常相似。所有语言任务,都可以表达为文本输入与文本输出。无论是写诗、将英语翻译成西班牙语、还是编写Python代码,都是一样。ChatGPT只需在大量数据中进行大规模扩展即可。原理一样。基础智能体将任务提示作为输入,并输出操作。我们只需在大量现实数据中,对其进行大规模扩展,即可对其进行训练。我相信在未来,一切能移动的东西,最终都将是自主的。有一天我们会发现,所有AI智能体,无论是《Wall-E》、《星球大战》,还是《头号玩家》。无论是在物理空间还是虚拟空间,对同一个基础智能体来说,都只是不同的提示。这将是我们探索AI的下一个巨大挑战。Andrej Karpathy最新博文:以自动驾驶为案例,展望AGI时间:2024年1月24日来源:瓦砾村夫字数:4,027特斯拉前AI与视觉团队总监,现OpenAI科学家Andrej Karpathy,1月21日在个人博客上发文,文章目前处于404状态,可能已下线或设置权限控制。这篇文章中,Andrej尝试以自动驾驶技术与商用进展为例,类比AGI进步,由此文能一窥Andrej对特斯拉自动驾驶态度。正文内容:在大语言模型LLM进展推动下,最近有很多关于AGI、时间表以及它可能是什么样的讨论。有些充满希望与乐观,也有很多是恐惧、悲观的。不幸的是,很多内容非常抽象,这导致人们鸡同鸭讲。我一直在寻找具体类比与历史先例,以帮助我们更接地气探讨这个话题。特别是,当有人问我AGI会是什么样时,我喜欢以自动驾驶为例。这篇博文中,我想解释一下原因。让我们从AGI常见定义开始。AGI:在大多数有经济价值工作中,超越人类能力的自主系统。请注意,这一定义有两个具体要求。首先,它是完全自主系统,它可以独立运行,几乎不需人工监督。其次,它能自主完成大部分有经济价值的工作。为了使这一部分具象化,我个人喜欢参考美国劳工统计局雇员指数。同时具备这两个特性的系统,我们称之为AGI。这篇博文中,我想说的是,我们最近在自动驾驶能力上的发展,是一个很好的早期案例研究,可以说明自动化程度不断提高所带来的社会动力,进而说明AGI总体上会是什么样。我认为,这个领域的几个特点,可以笼统说这是件大事:自动驾驶对社会来说触手可及,可见度也很高,街上的汽车没有司机。规模上看,它是经济一大组成部分,目前雇佣大量劳动力,例如优步/Lyft司机;驾驶是自动化难度足够高的问题,但我们实现自动化领先于经济的许多其他版块;社会已注意到并正在对此做出反应。还有其他一些行业,也大幅实现自动化,但要么是我个人对它们不太熟悉,要么是它们不具备上述某些特性。Google Brain首席科学家Meredith Ringel Morris等人所著的论文Levels of AGI:Operationalizing Progress on the Path to AGI,将AGI按狭义与广义两个不同角度划分成0~5六个等级部分自动化作为AI领域一个足够困难的问题,自动驾驶并不是凭空出现;它是将驾驶任务自动化的一个渐进过程的结果,伴随很多工具型AI的中间产物。汽车自动驾驶方面,现在很多车辆都配备L2级别辅助驾驶系统,一种与人类合作从A地到达B地的AI。它并不是完全自动化,但可以处理很多低层次驾驶任务。有时,它还能自动完成整个操作,例如,汽车可能会帮你停好车。人类主要充当这一活动监督者,原则上也可随时接管并执行驾驶任务,或发出高层次的指令,如请求变道。某些情况下,如车道跟随与快速决策,AI能力会超越人类,但在一些罕见情况,AI能力仍低于人类。这类似我们开始在其他行业部署的许多工具型AI,尤其是最近大语言模型LLM而出现的能力解锁。例如,作为一名程序员,当我使用GitHub Copilot自动完成一个代码块时,或使用GPT-4编写更大函数时,我是在将底层细节交给自动驾驶,但在需要时,我也可以以完全相同方式进行干预。Copilot与GPT-4,是L2级别的自动编程。整个行业有很多L2级别自动化,但不一定都基于LLM,从TurboTax,到亚马逊仓库的机器人,再到翻译、写作、艺术、法律、营销等领域的许多其他工具型AI。完全自动化到一定时候,这些系统跨越可靠性门槛,变成类似今天Waymo,它们逐渐驶入完全自动驾驶的领域。如今在旧金山,你可以打开应用程序,呼叫Waymo,而不是优步。一辆无人驾驶汽车就会停在你面前,把你这个付费用户带到目的地。这太神奇了,你无需懂得如何驾驶,无需关注路况,可以歇着打个盹,系统就会将你从A带到B。与同我交谈过的许多人一样,我个人更喜欢乘坐Waymo,而不是优步。你会获得变化更少、更加可重复的体验,驾驶很流畅,你可播放音乐,还可与朋友聊天,而不用花费脑力去思考司机听你说话时在想什么。全自动驾驶的混合经济即使现在已有自动驾驶技术,仍然有很多人在打优步,为什么会这样?首先,很多人根本不知道可以打Waymo。即使知道,很多人还不完全信任自动驾驶系统,他们更愿意让人来开车。即使他们打了Waymo,很多人可能还是更喜欢人类司机,例如,享受聊天、戏谑与认识其他人的乐趣。除了喜好之外,从APP中等待时间不断增加的情况来看,Waymo目前供不应求,没有足够汽车来满足需求。这一方面可能是Waymo非常谨慎管理与监控风险与公众舆论,另一方面是,我相信Waymo有一个来自监管机构的允许在街道上部署的汽车数量限额。另一个限制因素是,Waymo不可能动动手指,就立即取代所有优步。他们必须搭建基础设施、生产汽车、扩大运营规模。我认为,其他经济领域各种自动化都一样,有些人、有些公司会立即使用它们,但很多人:没听说过它们;即使听说过,也不信任它们;即使使用过,他们还是更愿意雇用人类,并与人类一起工作。除此之外,需求大于供给,而AGI将在所有这些方面受到限制,原因也完全相同,开发者一定程度自我约束、一定程度监管,以及一定程度简单粗暴的资源短缺,例如需建立更多GPU数据中心。研发自动驾驶汽车的Waymo,为谷歌母公司Alphabet旗下子公司。目前在美国旧金山、凤凰城运营全自动驾驶车辆,正在洛杉矶与奥斯汀开启运营全自动化的全球化正如我在资源限制上的暗示,这项技术的全面全球化仍然非常昂贵、耗费大量人力物力,有速度的限制。Waymo只能在旧金山与凤凰城行驶,但这个方法本身具有相当通用性与可扩展性,可能很快就会扩展到洛杉矶、奥斯汀等地。这个产品可能还会受到其他环境因素的限制,例如在大雪中行驶。而在极少数情况下,它甚至可能需人类操作人员救援。能力扩展并不是免费。例如,Waymo要进入一个新城市,必须耗费资源。他们必须建立存在、绘制街道地图、调整感知与路径规划/控制器,以适应一些特殊情况,或适应该地区特有的当地法律法规。在我们工作类比中,很多工作可能只有在某些环境或条件下才能完全自动化,而扩大覆盖范围需付出工作与努力。这两种情况下,方法本身都具有普遍性与可扩展性,前沿也会扩大,但只能随时间推移而扩大。社会反应我认为自动驾驶不断进入社会的另一个吸引人之处在于,几年前,到处都是关于它能不能、行不行的评论、担忧与负面新闻,整个社会都在讨论这个问题。现在,自动驾驶真的走进现实。不是作为研究原型,作为产品,我可以花钱使用全自动驾驶的交通工具。在目前运行范围内,这个行业已实现全自动驾驶,总体而言几乎无人问津。与我交谈的大多数人甚至是技术人员,甚至不知道这件事情的发生。当你的Waymo在旧金山街头行驶时,你会发现,很多人都把它当成怪胎。他们先是惊讶,并盯着看,然后,他们似乎就继续自己生活。当完全自动驾驶被引入其他行业时,也许这个世界并不会刮起一场风暴,大多数人可能一开始都不会意识到这一点。当他们意识到这一点时,他们可能会盯着看,耸耸肩,态度从否认到接受不等。有些人会因此而非常生气,做一些类似在Waymo汽车上摆放锥形筒以示抗议的事情。我们目前还没有看到这方面情况充分发展,我预计一旦充分发展,它将具有广泛可预测性。2023年8月,旧金山,安全街道反叛者组织成员在自动驾驶Cruise汽车引擎盖上放置锥形筒。这一方式能有效冻结这辆自动驾驶汽车运行,直到有人来将它开走。经济影响Waymo从车辆上去除驾驶员岗位,它也创造很多以前并不存在,不那么显眼的岗位,帮助收集神经网络训练数据的人工标注员、远程连接到车辆排查问题的支持人员、建设与维护车队及地图的人员等。为了组装这些高度智能化高科技汽车,首先要创建由各种传感器与相关基础设施组成的全新产业。工作岗位也是如此,很多工作会改变,有些工作会消失,也会出现很多新工作岗位。这在很大程度上是对工作重构,而不是直接删除,即使删除是最显著的部分。很难说随时间推移,整体工作岗位数字不会在某个时间开始呈下降趋势,但这种情况的发生速度,要比天真旁观局势的人想象的慢得多。竞争格局我想考虑的最后一个方面,是竞争格局。几年前,有很多自动驾驶汽车公司。如今,由于认识到这一问题的难度,我认为,以AI与更通用意义上计算的现有技术水平,只能勉为其难的实现自动驾驶,生态系统已大为整合。Waymo首次达成自动驾驶未来的功能完整性展示。不过,一些公司正在追赶,例如Cruise、Zoox,还有我个人心头所爱特斯拉。鉴于我在这一领域的特定历史与参与情况,在此做一简要说明。在我看来,自动驾驶行业最终目标,是在全球范围内实现完全自动驾驶。Waymo采取战略,是先实现自动驾驶,然后在全球范围内扩展;特斯拉采取战略,是先走向全球,再将自动驾驶规模化。目前,我同时是这两家公司产品忠实用户。就我个人而言,我首先为整体技术喝彩。一家公司还剩很多主要是软件方面工作有待完成,另一家剩下主要是硬件方面工作。哪家公司会进步更快,我有自己观点。综上所述,以同样方式,很多其他经济领域也可能会经历快速增长与扩张的时期,想想2015年左右自动驾驶时代,但如果类比成立的话,之后只会整合成少数几家公司存留竞争。而在这之间,会有很多活跃使用的工具型AI,想想今天L2级辅助驾驶功能,甚至还会有一些开放型平台,想想Comma。特斯拉FSD V12已推向部分用户。首个端到端,打通感知、规划与控制的自动驾驶系统承载特斯拉公司与大量用户希望。一个笑话:一位特斯拉工程师在下一份工作面试中,你曾写过最棒的代码是什么?回答:是FSD V11,马斯克把它们全删了。AGI以上是我所认为AGI大致轮廓。只需在脑海中将以上分析,复制粘贴到整个经济领域中,以不同速度发生,并以不同难度预测相互作用与二阶效应。我不指望这一类比完美无缺,我希望它能成为有用的模型,供我们参考与借鉴。从记忆谱系角度看,AGI并不太像是自我迭代改进的超级智能体,能脱离我们控制,进入网络空间,制造致命的病原体或纳米机器人,并把整个银河系变成灰色的粘稠物。AGI更像是自动驾驶,我们的经济中、正在加速发展、能改变社会的自动化程度的那部分。它循序渐进,社会既是它的旁观者,也是参与者,扩张速度受到诸多方面限制,包括监管、受过教育的劳动力资源、信息、材料与能源。世界并不会爆炸,它会适应、改变与重构。具体到自动驾驶,交通的自动化将使其变得更加安全,城市雾霾与拥堵将大大减少,停车场与停放的汽车将从街道两旁消失,从而为人们腾出更多空间。我个人非常期待AGI可能会带来所有等同于此的变化。亲测苹果Vision Pro:神奇的科技、略感孤独的体验与迷茫的未来时间:2024年1月31日来源:腾讯科技字数:6,684科技媒体The Verge资深编辑尼莱·帕特尔,对苹果头显Vision Pro进行亲测,总结令其感到满意与不足地方。帕特尔认为,Vision Pro显示器堪称技术奇迹,拥有最好视频传输体验,手动与眼动追踪是飞跃,与苹果生态系统无缝对接,在空间里任意缩放窗口功能很有趣。帕特尔不满意地方,包括Vision Pro售价昂贵,手动与眼动追踪可能不一致,容易让人产生孤独体验等。1月31日,苹果全新产品Vision Pro终于揭开神秘面纱。这款可穿戴设备被寄予厚望,背负着将我们带入空间计算新纪元的使命。简单说,将虚拟世界与现实世界无缝结合。广告中人们在工作、洗衣,甚至与孩子玩耍时,都佩戴Vision Pro,背后野心却更为宏大,瞄准增强现实AR。苹果宣称Vision Pro是开启新纪元开端,是头戴式电脑概念早已存在。2013年Oculus Rift原型机问世,科技媒体The Verge资深编辑尼莱·帕特尔Nilay Patel与阿迪·罗伯逊Adi Robertson见证这一领域发展。从最初Oculus到Meta的Quest产品线,再到如今Quest 3,虚拟现实VR与AR技术的结合,已取得长足进步。在苹果CEO蒂姆·库克Tim Cook引领下,苹果坚定认为AR价值将远超VR。多年来,苹果在iOS平台为开发者提供丰富AR工具,高端iPhone与iPad配备激光雷达深度扫描仪。如今,Vision Pro终于将这些理念,凝聚为一台真正能在用户周围空间工作的电脑。它不仅能与Mac与iPad并驾齐驱,让用户轻松完成各项任务,还可使用Excel、Webex、Slack等应用程序,或在虚拟的4K HDR大屏观看电影与电视节目。用户甚至可将Mac显示器镜像到Vision Pro中,仿佛在虚拟空间中悬浮巨大的显示屏。这些功能听起来令人惊叹,实际体验确实如此。Vision Pro背后隐藏诸多重大权衡。首先,为了实现这些功能,头显的重量成为一大挑战。苹果选择通过电缆连接外部电池组,以减轻头显重量。还有更深入的哲学问题:我们是否愿意为这些功能而牺牲个人形象?人们是否愿意携带像行李箱般大小设备?是否愿意通过屏幕,而非自己眼睛去观察世界?资深科技记者尼莱·帕特尔在过去几天,深入体验Vision Pro,他思考这些权衡究竟是否值得。他不断追问自己:人们是喜欢在现实世界中使用电脑,还是通过Vision Pro在虚拟世界中操作。Vision Pro充满魅力,但要想真正赢得市场,它还需面对诸多挑战。硬件苹果坚称,Vision Pro并非传统意义上虚拟现实头显。实际上,当用户佩戴上Vision Pro时,它确实能带用户进入完全由3D影像构成的虚拟世界。外观上看,它并不像传统VR头显那样显眼。通过Vision Pro,用户可在虚拟空间中自由探索,如在月球上工作,或在厨房中与一堆漂浮的窗户互动。这种体验,已超越简单的虚拟现实,让人难以界定它究竟属于哪种计算领域,增强现实、混合现实,还是虚拟现实,其实它更像是全新的计算体验。过去10年,科技界一直在为头戴式显示器的功能与定义争论不休,各种新词层出不穷。增强现实、混合现实、虚拟现实等术语,在业内引起广泛讨论与分歧。Vision Pro出现,似乎为这一领域带来新思考。增强现实,可让虚拟内容与物理世界无缝对接。通过Vision Pro,用户可轻松实现餐厅菜单自动翻译,或是在真实墙面上展示虚拟海报。虚拟现实,能让用户完全沉浸在由计算机生成的三维环境中,故意屏蔽用户对物理世界感知。混合现实,将虚拟与现实融为一体,让应用程序窗口如同漂浮在客厅中的真实物体。用户可在与这些虚拟物体互动的保持对现实世界感知,从而获得全新、沉浸式的计算体验。相比其他VR头显,Vision Pro在设计与质感上显得更为出色,铝外壳由镁与碳纤维打造,看起来非常坚固与高端,仿佛是苹果一贯设计语言的延伸;内部集成小型化的iPhone 6、AirPods Max、Apple Watch等技术,使得Vision Pro在拥有尖端科技又不失熟悉的用户体验。对曾经尝试过VR头显人来说,Vision Pro体积与重量都令人惊讶,显得更为小巧精致。Vision Pro搭载的正面显示屏,旨在让用户在沉浸虚拟世界仍能与外界保持互动。实际体验中,这款显示屏表现不尽如人意。苹果在宣传照片中展示明亮、高分辨率的屏幕,实际效果大相径庭。这款显示屏分辨率较低,亮度不足,严重反光,导致用户在正常或明亮光线下很难看清屏幕内容。这使得与他人交流变得有些尴尬,用户所显示的画面效果低劣,更像是CGI动画。想象一下与人直视时,他们看到的只是模糊、低分辨率的图像,这种感觉确实怪异。Vision Pro魅力并不仅在于显示屏,内部藏有众多摄像头与传感器,包括高分辨率前置摄像头、激光雷达扫描仪、TrueDepth摄像头、红外线探照灯等。这些技术结合,使得Vision Pro能实现精准手部跟踪与空间定位。弱光环境下,这些设备同样能正常工作。在强大M2处理器与R1空间协处理器支持下,Vision Pro性能表现相当出色。测试过程中,帕特尔甚至没有察觉到风扇存在,长时间使用后,温度会升高。控制方面,Vision Pro借鉴Apple Watch一些设计元素。用户可通过右侧数字表冠调节音量与沉浸感,左侧按钮可用于拍摄3D照片与视频。Vision Pro附带两种发带:单独编织带与双环带,可根据个人喜好选择佩戴。对佩戴眼镜的用户,Vision Pro提供定制的蔡司镜片插入功能。帕特尔只佩戴软性隐形眼镜使用Vision Pro,但整体感觉相当舒适。Vision Pro扬声器效果出色,声音立体、洪亮,营造出令人信服的空间音频效果。扬声器密封性并不太好,周围人都能听到用户在说什么,除非佩戴耳机。用户可使用任何想要的蓝牙耳机,但如果用户使用最新AirPods Pro,会得到一大堆额外功能,比如更低延迟,无损48KHz音频,苹果自适应音频系统,它可根据需要自动混合来自现实世界声音。Vision Pro重量是最引人注目的缺点之一。长时间佩戴,Vision Pro重量会对用户头部造成较大负担,裸重达到600~650克之间。帕特尔一直开玩笑说,Vision Pro是为用户脸准备的iPad,它比11英寸iPad Pro 470克要重,接近12.9英寸的iPad Pro 682克。苹果提供多种尺寸光封与头带,供用户选择,长时间使用仍然会感到不适。Vision Pro比我们熟悉的Quest 2 503克、Quest 3 515克都要重得多,后两款头显都有内置电池。苹果曾表示,之所以选择使用外部电池组,是专门为减轻头显重量。苹果Vision Pro电池设计相当独特,电池本身重达353克,被形容为银砖,它可通过扭曲连接器与头显相连。电池还配备运动激活LED,充电时呈绿色,不充电时为橙色。备用电池并不能热插拔,一旦断开,就会切断电源,给用户带来不便。用户可花199美元购买额外电池,这并不能解决根本问题。帕特尔对这种电池设置,没有太大意见,这主要是Vision Pro给人感觉,不像是被戴着到处走动的设备。有趣的是,苹果在所有公司中都推出这种折衷方案,电池实际上并没有更大,它可提供超过2个半小时运行时间。如果用户把电池插上电源,Vision Pro只要靠墙上电源供电,用户想用多久就用多久。苹果Vision Pro设置过程相当简单,头带调整是唯一需要手动完成部分,其余一切均由机动与传感器驱动,用户无需进行繁琐的精密转轮调节。用户第一次戴上Vision Pro时,它会引导用户通过按住数字表冠来调整镜头,然后进行眼球追踪设置。对拥有iPhone用户来说,将手机靠近Vision Pro即可快速完成所有设置。如果用户没有iPhone,需手动输入密码等必要信息。作为一款独立设备,Vision Pro仍然能正常工作。在设置完所有这些之后,用户将可体验未来计算。这款增强现实设备,不仅代表显示技术巨大飞跃,更将虚拟现实体验推向全新高度。Vision Pro显示屏,无疑是核心亮点。两个显示器都采用Micro OLED技术,每个显示器尺寸仅7.5微米,相当于红细胞大小,拥有高达2,300万像素。这种精细的显示技术,为用户带来惊人清晰度与色彩准确度,使得文本阅读与电影观看变得流畅自然。苹果在工厂对显示器进行严格校准,确保色彩准确,不过饱和,为用户带来生动的视觉体验。Vision Pro音频表现同样出色。扬声器效果宏亮,呈现的空间音频效果令人信服,仿佛声音来自四面八方。这种出色的音频效果,为用户带来沉浸式体验,仿佛置身真实环境中。作为增强现实设备,Vision Pro面临巨大挑战:如何将真实世界与虚拟信息无缝融合。苹果选择折衷方案,通过实时视频传输技术,将摄像头捕捉到的真实场景与虚拟信息相结合。这并非真正光学增强现实,Vision Pro视频传输效果令人信服。它能实时、高分辨率传输视频,为用户带来流畅体验。无论是坐在电脑前工作,还是在大窗户前使用Mac电脑,Vision Pro视频传输功能都经受住考验。控制苹果对Vision Pro眼手追踪控制系统颇为自豪,这一技术相较市场同类解决方案,领先数个时代。通过这一系统,用户只需凝视想要控制对象,轻敲手指,即可实现交互,为用户带来全新操作体验。初次使用Vision Pro眼手追踪功能时,用户可能会感到震惊,仿佛拥有一种超能力。借助外部摄像头,系统能捕捉到相当大的身体周围区域的手部动作。无论手部处于沙发背后、腿上、空中,还是将手臂肘部放在桌上,只要在相机可视范围内,系统都能精确识别。初次使用时,用户甚至不需将手直接置于眼前,这种体验对初次使用者来说确实相当新奇。随着使用次数增加,这种新奇体验逐渐退去,甚至在某些情况下,眼手追踪功能反而使得使用Vision Pro变得更为困难。问题在于,为确保系统能准确识别用户意图,用户需时刻注视想要控制的对象。这无疑增加用户认知负荷,容易分心。传统电脑使用中,输入机制与用户所关注的文档或应用程序界面是相互独立。例如,在笔记本电脑上,用户可一边专注文档,一边使用键盘进行编辑;在手机照片编辑应用程序中,用户可一边调整照片效果,一边观察照片变化。Vision Pro眼手追踪系统,改变这一工作模式。用户必须注视想要控制的对象,轻敲手指进行交互。这意味着用户注意力必须不断从正在处理任务,转移到下一个需要点击的按钮上。 进行小游戏《Stitch》时,帕特尔发现自己总是需要将视线从棋子移动到目标位置,导致游戏体验变得不顺畅。 Vision Pro操作系统,似乎是为眼动追踪系统设计,实际操作中存在一些问题。很多控件太小,彼此靠得太近,导致用户很难快速准确选择目标。为确保点击正确,用户必须仔细观察,并确认目标,否则可能会误点其他对象。有时候,最快的选择方法是暂时转移视线,然后再试一次。Vision Pro眼手追踪系统,在某些情况下能带来神奇体验,但当它出现错误或失效时,用户体验可能会受到影响。这让人回想起早期的多点触控屏幕,当系统偏离预期或出现错误时,可能会让人感到不适。相比之下,Mac键盘与鼠标,以及iPhone多点触控屏幕,都为用户提供更为直观的控制方式。对Vision Pro来说,摄像头负责观察用户眼睛与手部动作,并将其转化为输入指令。这种转化并不总是完美,有时会出现解读错误的情况。这导致一些有趣场景,例如使用屏幕键盘进行输入时,用户需注视每个字母,并捏手指进行选择。除输入Wi~Fi密码等短时间任务外,这一功能似乎并不实用。Vision Pro摄像头,在捕捉用户手部动作方面存在一些限制。某些情况下,例如靠在椅子上、坐在桌子旁或躺在黑暗房间里,摄像头可能无法看到用户手部动作。这为用户带来不便,限制眼手追踪系统可用性。使用Vision Pro时,用户时刻意识到自己在观察什么、手在哪里,这与其他电脑的使用体验截然不同。当系统出现问题时,会让人感到极度沮丧。另一方面,一个持续观察手部输入的系统,常常会记录大量额外输入,这可能造成混乱。就像显示器一样,帕特尔认为Vision Pro是目前最出色的眼手追踪系统。它确实能带来宛如魔法般体验,直到出现问题。要让人们在这种环境中进行计算操作,眼手追踪系统必须具备绝对稳定性与可靠性。空间相机对Vision Pro拍照功能,除非确实必要,否则帕特尔不建议轻易尝试。只需轻按快门,用户就能获得2560 x 2560高清静态照片,即650万像素。据他所知,这些照片始终源自左侧主摄像头,数据显示配备了18mm f/2.0镜头。它们看似拥有高像素,但由于源自专为视频优化的微型摄像头传感器,实际成像效果并不理想。视频拍摄,情况稍好一些。Vision Pro能以30fps速度录制2200 x 2200像素视频。比照片质量略好,由于严重压缩问题,效果不尽如人意。如果用户选择在除Vision Pro以外设备上观看这些视频,会明显察觉到相机在移动时产生的畸变。有一项功能令人印象深刻:iPhone 15 Pro Max拍摄空间视频,Vision Pro上以3D形式观看。帕特尔曾为女儿在动物园与圣诞节前后录制一些视频。就像所有父亲一样,他可能会反复观看这些珍贵时刻。这些视频在神秘的白色烟雾中回放,整体效果令人难以置信。可重温这些短暂回忆,用户只能独自戴上耳机欣赏,无法与他人分享。目前,用户在拍摄空间视频时面临选择难题:要么选择1080p 30fps分辨率,要么选择手机支持的全4K分辨率,二者不可兼得。帕特尔本人更倾向使用更高分辨率视频。但未来某一天,默认的空间拍摄设置将成为明智之举,这将是真正转折点。visionOSVision Pro搭载的visionOS,据苹果所述,是基于iPad进行深度定制,尤其在延迟与视觉效果方面进行大量优化,更加适用于空间计算。这一决策对苹果而言,无疑是巨大优势。Meta为构建基于Android的Quest操作系统以及填充应用程序商店,耗费数年时间。苹果从一开始便拥有成熟的iPad功能与庞大应用程序库。人们总说Vision Pro是专为用户而设的iPad,并非完全准确,但从目前应用集合看,并非毫无道理。这些应用,大多与iPad应用相似,主屏幕还预装名为兼容应用的文件夹,里面全是真正的iPad应用。对一款刚发布的产品而言,我们很难对其应用生态系统做出准确判断。目前而言,iPad应用生态系统已相当成熟,苹果也在Vision Pro发布自家播客与新闻应用程序。Vision Pro应用领域存在一些争议。大型开发商,如Netflix、SpotifyYouTube等决定暂时不在Vision Pro上应用,甚至不允许他们iPad应用在Vision Pro上运行。更令人惊讶的是,Vision Pro上Safari与基于网络的3D体验完全脱节。苹果在支持WebXR标准方面,已发出了一些积极声音,并在Safari高级偏好设置中设置一些标志来打开支持,但就实际运行效果而言,大多数情况下都未能实现。另一方面,帕特尔曾问及苹果为什么庞大的VR视频库,在YouTube上无法在Vision Pro上播放。该公司给出的答复,基本上是认为目前技术不够成熟,许多内容是为无法提供高质量空间体验的设备所设计的。他们工作重心在提供最佳的空间媒体体验,包括空间照片与视频、苹果沉浸式视频以及Apple TV上的3D电影。简而言之:对YouTube VR的支持,我们不应抱有过高期望。visionOS与iPadOS之间最大差异,在于iPadOS在应用程序排列以及同时运行的应用程序数量上有诸多限制,visionOS赋予用户更为自由操作空间。这种自由度简直令人惊叹。在visionOS中,用户可随心所欲打开多个应用程序,并将其放置在任何用户想要位置。遗憾的是,visionOS并不支持与其他人共享这些窗口或体验。想象一下,两个佩戴Vision Pro头显的人坐在同一房间内,无法同时看到漂浮在空间中的相同物体。苹果表示,一些企业开发者正在开发共享视图体验,使得用户可通过FaceTime将一个Vision Pro视图镜像到另一个Vision Pro上,但最终,帕特尔的Safari艺术画廊只能独自欣赏,他成为唯一的观众。值得一提的是,用户可同时在屏幕上展示来自三种不同操作系统的应用程序:原生的visionOS应用、iPad应用程序、通过Wi~Fi连接的Mac应用,让整个Mac显示器与macOS的混乱之美共同漂浮在空间中。visionOS在窗口管理方面,还有很大提升空间。目前缺乏像Expose、Stage Manager这样的功能,来整理所有打开的窗口或预先安排它们,现有的窗口管理并不完全直观易懂。总结Vision Pro无疑是令人惊叹的产品,这是只有苹果才能真正制造出来的第一代设备,从卓越的显示技术到直通技术,再到整个生态系统的无缝整合,使其成为一款极具实用性的设备。电池续航方面,也几乎让人忽略外部电池的存在,凸显苹果强大技术实力。帕特尔感叹道,Vision Pro的出现,得益苹果超凡技术能力、充足人才储备与资源。苹果一直在寻求挑战,解决看似最棘手的问题。Vision Pro充满各种深思熟虑的创新理念,这在其他公司中难以做到,尤其是在第一代产品中。令人惊讶的是,苹果无意中透露出一些核心理念可能只是死胡同,即这些理念或许永远无法被执行得足够好,无法成为主流。例如,目前最好的手控与眼控系统,在Vision Pro中得到体现,感觉在未来几年里,鼠标、键盘、触摸屏仍将占据主导地位。Vision Pro中技术令人惊叹,当它起作用时,感觉就像魔法一样;当它不起作用时,会让人感到极度沮丧。另一种看待Vision Pro方式是,苹果知道这一切,但它一直暗示制造真正的AR眼镜所需的技术根本不存在。Vision Pro可能是一个模拟器或开发工具包,让人们为未来硬件构建应用程序与有意义的用例。这个框架下,苹果现在可推出Vision Pro硬件,同时将所有资源投入到真正AR眼镜硬件上。我们必须回归现实,审视苹果已发布的产品,而不只是关注未来的承诺。帕特尔不断回想起第一次戴上Vision Pro时产生的疑问。例如:用户愿意使用一台每次使用,都会弄乱用户头发的电脑吗?如果用户化了妆,愿意使用一台每次使用,都会抹掉化妆品的电脑吗?用户愿意使用一台,允许迪斯尼阻止用户拍摄自己所看到内容的电脑吗?用户认为一台电脑很容易向其他人展示用户正在看的东西吗?用户认为拥有的最漂亮的电视有HDMI输入吗?用户愿意使用一台在暗室里不能正常工作的电脑吗?用户愿意使用一台总是看着双手的电脑吗?这些是我们在使用Vision Pro时,必须面对的权衡。最大缺点是,使用Vision Pro是一种孤独的体验。它有积极方面,如出色的显示效果与直通技术,但对主要的计算设备来说,这种孤独的体验显得有些奇怪。帕特尔不想使用Vision Pro完成工作,他希望能与其他人一起完成工作。Vision Pro具有很多令人惊叹的创新功能与卓越技术表现,但他仍持谨慎态度。马斯克宣布:首例人脑设备植入手术已完成,术后恢复良好时间:2024年1月30日来源:腾讯科技字数:9142024年1月29日,马斯克在社交平台X上发文表示,脑机接口公司Neuralink已进行首例脑机接口设备人体移植手术,移植者目前恢复良好。神经元脉冲监测初期结果显示,Neuralink技术将非常有前景。这个消息在X上引发网友热议,他们对该技术应用于人体存不同看法。有人为Neuralink取得的里程碑式成就感到兴奋,相信该技术将改变人类生活,希望Neuralink分享更多相关信息。也有人对此次手术感到担忧,害怕技术滥用带来黑客帝国式后果。马斯克在随后帖子中透露,Neuralink第一个产品被称为心电感应Telepathy。他写道:只需利用思维,人们就可控制自己手机或电脑,并通过它们控制几乎任何设备。最初使用者将是失去肢体功能的人。想象一下,如果霍金能够比打字员或拍卖师更快进行沟通,结果会如何?这就是我们的目标。关于首例接受植入手术的神秘志愿者,多数细节尚未对外公布,据此前撰写过马斯克传记《埃隆·马斯克:特斯拉、SpaceX与对美好未来的追求》作家阿什利·万斯Ashlee Vance透露,Neuralink首次人体试验的理想候选人,是40岁以下、四肢瘫痪的成年人。万斯解释,外科医生进行开颅手术需几个小时时间,机器人将芯片植入控制手部、手腕以及前臂的大脑区域只需25分钟。他补充说:Neuralink目标是证明该设备可以安全从病人大脑的那个部分收集有用数据,这是其努力将人类思维转化为计算机可以理解的一系列指令的关键一步。资料显示,Neuralink 2016年在美国加州注册,主要以马斯克个人资金维持运营。2023年早些时候,美国食品和药物管理局FDA批准Neuralink对其设备进行人体试验,马斯克将其描述为头骨上的Fitbit。2023年9月,Neuralink开始为首次人体试验招募志愿者,Neuralink估值已飙升至50亿美元。近年来Neuralink一直受到伦理问题的困扰,并引发神经科学专家们质疑。为确保安全,Neuralink获得人体试验批准耗时颇久,尤其是获FDA批准。主要问题涉及设备锂电池、植入物导线在大脑内移动的可能性,以及安全取出芯片等方面的挑战。马斯克对Neuralink抱有宏大期望,称将促进芯片设备的快速手术植入,以治疗肥胖、自闭症、抑郁症、精神分裂症等疾病。行业专家提醒,即使该设备被证明对人类安全有用,Neuralink仍可能需10多年才能获得商业化许可。若要让大脑植入物广泛应用,还需克服技术与伦理方面挑战,并进行广泛测试。 AI将超越人类?脑机接口之父:资本炒作,AI无法真正进化时间:2024年1月23日来源:腾讯科技字数:5,555 脑机接口无法帮助人类实现《黑客帝国》中意识上传场景,人类记忆是以模拟方式,而非数字方式存储。 侵入式脑机接口初衷是为科研,对患者并不是最优选择,植入物应仅限于非常严重的病例中,或少数全身完全瘫痪的患者。 未来AI并不能取代人类。实际上,目前AI技术仍依赖人类。真正智能是不可计算的。人类不能被简化为数字逻辑,也不能用公式来表示。人们经常担忧是否机器越来越像人类,实际上真正风险是目前人越来越像机器。很多人习惯数字化生活,会无意识模仿机器,随之思维方式也会被机器影响。 2023年贺岁档火爆电影《流浪地球2》,刘德华扮演男主角女儿去世,她的意识通过芯片存留下来,实现数字永生。这样场景在其他电影中也曾有所展现,比如《黑客帝国》,人类意识被连接到虚拟环境,人们可以体验虚拟世界中不同生活。这些炫酷场景,激发人们热烈讨论如何链接人类意识与数字世界交互,其中往往离不开关键技术,脑机接口。 脑机接口赛道仍处早期阶段,距离商业化还有距离。但在2023年,脑机接口领域已获得新阶段突破,从动物实验走向人体临床实验,一直备受行业关注,马斯克脑机接口Neuralink首次获得美国FDA批准开展人体试验,知名公司Synchron也已完成脑机接口临床试验的患者入组。 随着2023年生成式AI爆发,脑机接口从中获益。知名咨询机构Acumen Research and Consulting在2023年10月发布预测报告,全球脑机接口市场未来几年将继续扩张,主要受益市场对辅助技术需求不断增长、神经技术与机器学习技术进步、虚拟现实与增强现实系统集成,以及与AI技术之间协作,这意味着脑机接口在商业化道路上进一步加速。 这些似乎预示脑机接口将迎来繁荣景象,公众对此也展开了畅想:数字永生、黑客帝国的新世界快要到来了吗? 巴西神经生物学家、美国杜克大学医学院神经科学教授、被誉为脑机接口之父的米格尔·尼科莱利斯发声,打破人们不切实际幻想。 米格尔在一次访谈中,犀利批评马斯克Neuralink,直言根本没有作出任何创新。尼科莱利斯直言,即使马斯克发明侵入式脑机接口,也不会向大家推荐。 脑机接口先驱人物,米格尔·尼科莱利斯1998年起,开始在这一领域研究工作。2014年,他在巴西举行世界杯上展示令人瞩目的成就:他设计的脑控下肢外骨骼使一位瘫痪巴西青年得以完成世界杯开球仪式。 过去10年里,脑机接口经历从实验室研究,到实际应用转变,同时面临技术、伦理与社会方面挑战。 在《原力》第二期,卢刚连线对话米格尔·尼科莱利斯,进一步探讨不看好Neuralink这类侵入式脑机接口原因。米格尔说:类似《黑客帝国》在大脑上传意识场景,在未来根本不会发生。 米格尔·尼科莱利斯向我们揭示更多关于脑机接口技术背后深层次真相与发展现状。 以下为对话精选实录: 评价马斯克Neuralink公司:不看好侵入式脑机接口 卢刚:我关注到你最新访谈,提到关于马斯克与Neuralink,你评论说像Neuralink这样公司并没做出多少创新。对这类公司创新有什么期待?你认为他们应该关注什么? 米格尔·尼科莱利斯:1998年,我与哈内曼大学教授John Chapin开始着手研究脑机接口技术。1999年,我们以及团队在Nature Neuroscience一起发布论文,开创整个脑机接口领域。 对脑机接口领域,我的愿景主要有两点: 首先,我希望从事这一领域公司,能真正做到实事求是,不是许诺一些无法实现、像科幻小说里事情,对脑机接口领域与像我这样学者与科学家,以及任何参与脑机接口领域重大发展的人来说,这非常不利。 另外,我希望一些公司要从患者角度出发,优先考虑患者利益。对绝大多数神经系统病症来说,并不需将植入物放入大脑,这些植入物就是我发明的。植入式脑机接口,发明初衷目的是为了科研。 治疗患者方面,我们正在证明可以在不侵入大脑情况下做很多事情,实现所谓非侵入式脑机接口。植入物应仅限于非常严重的病例中,或少数全身完全瘫痪患者,并且他们全身参数处于符合植入。这种情况下,才可能更有优势与考虑使用植入物。 《黑客帝国》在现实世界不可能发生,人类记忆无法存储 卢刚:像侵入式脑机接口这种选择,你认为这是错误方向,还是取决于不同情况? 米格尔·尼科莱利斯:我意思是这不是主要方向、不是优先选项。 大多数患者都能从非侵入式脑机接口中受益,这样做更容易、更便宜、更安全。我们现在已可以在几种疾病中证明,使用非侵入式脑机接口,在神经康复方面与提升患者生活质量方面,也是非常有效。 脑机接口领域就像AI领域,目前存在大量炒作问题。有人认为未来人类可以下载大脑,并上传内容、在脑袋里装一个芯片就能拥有一些技能,这让我想起《黑客帝国》与其他许多类似科幻电影中情节。 实际上我们不能把探针放进人类脑袋里,去下载大脑中内容,这种情况根本不会发生,人类记忆是以模拟方式,而非数字方式存储,科幻片中提取记忆的这种情况,永远不会发生。 我可以告诉你三点永远不会发生的事:人类无法将内容同步上传到大脑;无法通过一些植入技术手段来获得特异功能,比如瞬间拥有某项技能;无法将记忆下载到任何数字设备。 卢刚:这可能会让一些人失望,有些人正在研究数字永生,你刚提到公众对脑机接口领域期望可能过于乐观,对这一领域发展,你会有哪些顾虑或担忧? 米格尔·尼科莱利斯:对这个行业发展,我真正担心有三方面: 首先,资本炒作等问题,可能会把侵入式脑机接口作为解决一切问题方法来推广。 大脑植入需庞大基础设施,包括医院基础设施、经验丰富且在这个领域受过训练的医生等,这些因素都十分重要。 如果现在有些公司公开的侵入式脑机接口技术,甚至无法让猴子存活。我们又如何相信他们能帮助人类植入大脑,这是主要问题。 第二,是安全方面。 比如当传输来自人类患者数据时,需具备用于医疗数据的所有安全措施。这种措施已存在各种与人类健康相关数据中,患者也需充分了解其中文件数据。比如记录的是什么数据?为什么有益?我们对患者指导与了解数据也非常重要。 还有伦理等问题。 未来,我们需一些类似的具体协议,来保护我们大脑的数据等相关记录。目前,行业已出现用于数据的标准,相关伦理问题与协议将会被纳入其中。 不担心机器越来越像人,人类越来越像机器 卢刚:2023年开始,AI再次被ChatGPT推上热潮,也会给脑机接口领域带来新的变革。我关注到你曾在访谈中提到过,认为AI没有意义,它们既不是智能,也不是人工。你可以谈一下不看好的原因? 米格尔·尼科莱利斯:目前,大多数基本算法统计工具现在都已用于AI领域。AI在医学与其他学科中也很有用、非常强大。 AI这个名词,只是20世纪50年代作为一种很好的营销手段而诞生。当时计算机科学家约翰·麦卡锡想召开一次会议、需筹集资金来资助。他需一个有影响力,并且合适的概念让美国政府提供资金,AI这个名词就诞生了。 对AI,我想声明几点: 第一,智能是像我们人类这样的生物,为了生存、为了克服困难而与环境、其他生物互动时产生,智慧是有机物的一种属性。如果达尔文今天能与我们对话,他一定会非常清楚捍卫这个观点。 我们拥有的任何机器、任何系统或任何算法,都不具备这种智能,真正的智能是不可计算的。比如人类不能被简化为数字逻辑,不能用公式来表示。如果存在可计算性的话,那么世界上有很多非常富有的人,这些人可能会通过AI来获取财富,比如炒股等,但事实并非如此,我们无法预测未来几个小时股市的走势,甚至连几分钟的走势都无法精准预测。 第二,今天大部分AI技术,仍旧依赖人类,比如训练算法、验证内容、策划内容或编程等工作。 AI是人类智慧的反映,AI幕后推手是一群极其聪明的人,他们愚弄我们大多数人,AI是他们智慧成果。 我不担心未来AI取代人类说法,这不会发生。我真正担心的是,现在很多人越来越像机器,这才是风险所在。 目前很多人行为,将像一个数字设备一样,我称这类人为数字僵尸,他们生活与思维方式沉浸在数字逻辑生活中。尤其是年轻一代群体,习惯数字化生活,随之思维会被机器影响,实际上这样的模式是人类在无意识的模仿机器,我们人类特有品质、情感、智慧等能力,也会被逐步影响与降低。 AI不会达到人脑能力,GPT不是真正在进化 卢刚:你认为生成式AI是否将对脑机接口领域产生影响,或做出贡献? 米格尔·尼科莱利斯:我们可以学习与拥有这个领域一些统计方法、深度学习、大数据、机器学习等强大技能,在脑机接口领域利用它们,我们正在这样做。 不过,我认为AI预测能力不强。一般来说,AI无法达到人脑能力。 卢刚:刚提到达尔文理论,让我想到《进化论》。我们看到目前所有媒体内容声称ChatGPT他们在数据库中自我进化,它在变得越来越聪明。你认为AI真正在进化吗? 米格尔·尼科莱利斯:美国作家Clifford Stoll的一句话,曾很好概括这一点,也可以回应这个问题,他曾说过:数据不是知识,知识不是智慧,智慧不一定是聪明。 GPT是拥有大量数据的系统,无论有多大信息量与数据,并不会真正产生知识或智慧,更不会产生智商。 人类必须掌握信息,才能做出决定,在积累智慧、睿智与知识过程中,还有比数据更重要的东西。 我知道一些计算机科学家的看法是,只要有足够的生物数据,一切生物都可以被复制,但这不是真的。 比如有许多非线性图像与许多非线性现象发生在生物体内,甚至发生在细菌或病毒中。这是无法计算的,又谈何复制? 即使我们已掌握有关结构的所有信息,基因组成、生理与新陈代谢、甚至拥有庞大的数据库,我们至今无法完全让它顺利运行。 ChatGPT就是很好的例子,如果我们停止添加数据,它所谓进化就结束了,它的回答仅限于数据系统更新的截止时间,无法创造新内容。 建议资本避免陷入科幻陷阱 卢刚:现在,许多杰出的研究人员,甚至是AI领域权威专家都同意这一点,我们创造的数字系统,不可能达到与人脑同样复杂程度与性能。 米格尔·尼科莱利斯:像Neuralink、OpenAI这样AI公司筹集很多资金,大量资金涌入该行业。但在我理论中,有些事情实际上太科幻,不会在未来发生。 卢刚:你会对风险投资公司说,不要再浪费钱了? 米格尔·尼科莱利斯:不会,我有很多来自知名VC的朋友。我对他们建议是,确保收购的是一家真正的公司,而不是一个乌托邦或一部科幻电影。 如果有人说,这家公司筹集3亿美元,这并不会给我留下深刻印象。这对我与大多数科学家来说毫无意义,我们可以看到现在很多筹集10亿美元公司纷纷倒闭,他们公司背后一无所有,也没有任何产品问世。 很多投资人,是被装腔作势与掌握大声叫卖技巧的人说服,他们假装自己是天才。我见过几个被行业称为天才的人,他们中大部分人都不是。 很多初创公司只是在模仿20年前研究方式 卢刚:脑机接口领域,你为患者创造奇迹,2014年巴西举办世界杯足球赛上,米格尔设计的脑控下肢机械外骨骼帮助瘫痪的巴西年轻人Juliano Pinto,完成为世界杯开球。10年过去了,你能总结一下10年间发生的事吗? 米格尔·尼科莱利斯:我内心感到非常自豪,大家仍然愿意谈论当时发生的事情。2014年,重拾行走计划Walk Again计划开始实施,重拾行走计划旨在让患者通过一套应用于人类的脑机双向接口系统与外骨骼装置实现站立与行走。 经过1年半时间,我们与八位患者,八位慢性截瘫患者一起工作。最后,我们决定Juliano Pinto为巴西世界杯足球赛开球。这一脚球,让行业关注到1999年在灵长类动物实验室里诞生的东西,在人类身上已成为现实,这是巨大的飞跃点。那天起,许多实验室与公司开始着手各种应用的研究。 我们最初论文是1999年发表,那是25年前,在老鼠身上完成的,小白鼠通过大脑活动控制小机器人。第2年,我们进行了一项猴子研究。 卢刚:让猴子玩游戏,对吗? 米格尔·尼科莱利斯:观察猴子玩游戏。你可以看到一些初创公司正在进行的演示,这个现象很有意思,我们在20年前都是这样做。现在很多初创公司在重复同样事情,通过这些也可以帮助他们筹集资金。 总的来说,2002年开始,许多公司掀起脑机接口领域第一波浪潮,走向应用端,将这些发现与知识转化为新疗法与新产品。 我现在正在世界各地创建研究所网络,将在欧洲、亚洲、北美洲、南美洲、非洲建立枢纽。几个月前,我与合作新机构将一起宣布,要创建治疗10亿Treat 1 billion项目,利用这些技术开发新疗法与新方案的想法,希望能让如今大多数患有某种脑部疾病的人从中受益。 我们希望在全球范围内建立最大的脑机接口网络,让研究人员、临床医生、计算机科学家、工程师都能参与其中。 我们将在1月底宣布,在世界各地首批成员将联合起来创造出一些新疗法,并将它们推广到全球,帮助尽可能多的患者。 我希望将来人们回首往事时会说:在巴西一个足球场上,一个小小的踢球动作,引发一场治疗脑部疾病患者的革命,我希望是这场踢球的意义所在。 随着算力提升,脑机接口将被大规模应用 卢刚:落地应用方面,脑机接口会对游戏与虚拟世界产生大的影响吗? 米格尔·尼科莱利斯:这是有可能的。我们早期有过一些尝试,没有想象中顺利。我认为脑机接口与AI技术、虚拟世界结合后,在其他领域的落地应用会很快出现。未来几年,脑机接口会在我们不常谈论的一些行业里不断发展。 卢刚:未来10年或15年,通过运用脑机接口等先进技术,世界会变成什么样?对此你有哪些期待? 米格尔·尼科莱利斯:由于算力在不断提高,未来脑机接口技术可能会被大规模应用。 1999年,我们开始对老鼠进行首次脑机接口方面研究,当时我们有一堵台式机墙进行实时计算,让动物只需思考就能控制设备。 初期发展阶段,算力是主要瓶颈,现在已不再是。现在,我们已可以通过专用芯片来实现,芯片算力越来越强。它可以同时运行多个系统,可以开拓更多可能性。 除了算力提升之外,我们实现通用接口的统一与普及,比如连接各种设备、机器人、虚拟、机械、电子、电气等方面接口。 起初,设计一个通用界面,是非常困难的事情。现在我们可以做到接口标准的对齐,使得脑机接口现在几乎可以与任何事物产生关联,也为后续落地应用发展铺开方便的大门。 我希望10年后,我们能为今天遭受脑部疾病折磨的家庭与人们带来福音,他们可以通过使用这种将大脑与机器联系起来的想法,衍生出来的技术、疗法与方法,以有尊严的方式充分表达自我,并能让他们有第二次机会享受生活、实现自己愿望与梦想。 OpenAI 19个黑手党出走创业,融资近80亿美元,华人科学家占比近1/3时间:2024年1月23日来源:新智元字数:4,088 Transformer 8子叛逃谷歌后,又聚齐OpenAI 19子。从OpenAI出走的19位科学家,已纷纷创办初创公司,融资总金额高达80亿美元。 凭借ChatGPT一夜爆红,成为世界顶级明星公司的OpenAI,也诞生叛逃19子,包括OpenAI创始人之一Matt KrisiloG、前运营主管Jeff Arnold,以及一大批研究与技术科学家。 他们纷纷自立门户,创办自己AI初创公司,有我们熟知的Anthropic,还有3位华人科学家组成的Covariant AI创始团队,这些公司已总计完成80亿美元融资。 红杉资本Sequoia Capital、a16z、Index Ventures、Khosla Ventures与YC等顶级风险投资公司,甚至Sam Altman、Greg Brockman都支持了19子初创公司。 一起看看从OpenAI出走的19位科学家都有谁? OpenAI六大金刚:最强AI独角兽Anthropic,估值180+亿美元 Dario Amodei、Jack Clark、Daniela Amodei 融资总额:72.5亿美元 员工数量:300人 知名投资人:谷歌、亚马逊、Menlo Ventures Anthropic联合创始人:Dario Amodei、Daniela Amodei、Jack Clark、Tom Brown、Jared Kaplan、Sam McCandlish 2021年,OpenAI一群研究人员创办Anthropic,秉持AI有可能造福人类共同信念。 这家初创公司从谷歌、亚马逊融资数十亿美元,有人将其称之为AI军备竞赛。从成立之初,Anthropic被视为将大模型安全性印在基因里的公司。 CEO Dario Amodei还是前谷歌大脑研究员,拥有计算神经科学博士学位,他从2016年起开始撰文探讨AI灾难性潜力。 他与Anthropic其他联合创始人,包括前彭博社技术记者Jack Clark,都看到AI将以指数级速度发展。他们认为AI公司,需开始制定一套价值观来约束这些强大的程序。 Amodei在2023年《财富》会议上谈到自己与共同创始人时表示,我们非常信任彼此,并希望一起工作,我们抱着这样想法创办公司。本质上来讲,Anthropic是家公益性公司,设有独立董事会,随时间推移,董事会将控制公司领导层招聘与任命。 Amodei姐妹Daniela Amodei现任公司总裁,曾负责监督OpenAI政策与安全团队,表示Anthropic安全第一的政策,是其主要差异化优势之一。 创立以来,Anthropic接连发布Claude、以及迭代升级后Claude2,支持200k上下文。 2023年,Anthropic发布长达22页文件,阐述负责任的扩展政策,防止其技术加速人类灭亡计划。 这项政策由Anthropic联合创始人兼理论物理学家Sam McCandlish负责监督,他在OpenAI工作期间,组建研究机器学习scaling laws团队,并为GPT-3铺平道路。 Anthropic向企业客户推介的核心是,宪法AI Constitutional AI,即语言模型被创造者赋予一种良知,一套旨在防止滥用技术的原则。 Constitutional AI部分创意来自另外2位OpenAI校友与Anthropic联合创始人,Tom Brown、Jared Kaplan。Brown曾是谷歌大脑研究员,Kaplan曾是约翰霍普金斯大学物理学教授,在离职创办Anthropic之前,曾为OpenAI提供咨询服务。 Kaplan与Brown都曾参与过Anthropic旗舰语言模型Claude红队工作,以探究其被滥用可能性。 Kaplan 2023年10月在彭博社一次会议上说,他认为AGI到来,可能只需5~10年时间。 Matt Krisiloff:Conception联合创始人兼CEO 融资总额:4,000万美元 知名投资人:Sam Altman、Laura Deming、Jaan Tallinn 员工数量:43人 在OpenAI职位:创始成员 作为OpenAI OG团队成员,Matt Krisiloff先是在2014年与2015年领导这家初创公司运营,随后负责领导YC加速器项目研究部门。 2018年,他创办健康科技初创公司Conception,通过使用干细胞培育人类卵子对抗不孕不育症。 Krisiloff 2014年毕业于芝加哥大学,2021年创立科学创始人组织SciFounders,该组织为科学家提供资金,帮助他们经营自己公司。 Pieter Abbeel、Peter Chen、Rocky Duan:Covariant联合创始人 Covariant创始团队:CEO Peter Chen、总裁兼首席科学家Pieter Abbeel、首席技术官Rocky Duan、研究科学家Tianhao Zhang 融资总额:2.22亿美元 知名投资人:Index、Ventures、Industry Ventures、Temasek Holdings 员工数量:200人 Pieter Abbeel是AI与机器人领域非常重要的人物,也是将深度强化学习应用在机器人领域先驱。 2016年,UC伯克利AI实验室三位博士生Peter Chen、Rocky Duan、Tianhao Zhang,在导师Pieter Abbeel指导下,打造机器人大脑Covariant Brain。 紧接着第2年,他们4人以创始人身份创办初创公司Covariant,致力成为AI机器人通用操作系统。 这个系统背后模型便是Covariant Brain,可以帮助机器人掌握具有挑战性任务,如叠衣服,或在仓库中拣选与包装。 值得一提的是,Pieter Abbeel、Peter、Rocky三人在创立Covariant前,都曾在OpenAI工作。为了创办Covariant,他们不得不离开OpenAI。 Covariant是针对特定企业用例,将机器人技术商业化,与OpenAI纯研究方法格格不入。 Chen在2023年告诉《福布斯》,OpenAI聚集了一群极富雄心、才华横溢的AI科学家与研究人员,他们敢想敢干,不断突破极限。 ChatGPT成为家喻户晓的名字之前,他们带领团队就已在AI机器人领域取得巨大进步。现在,Covariant Brain加持的机器人正在世界各地的仓库中心工作。 清华校友Tim Shi:Cresta联合创始人兼首席技术官 融资总额:1.51亿美元 知名投资人:红杉资本、a16z、Greylock、Tiger Global、Andy Bechtolsheim 员工数量:200人 在OpenAI职位:技术人员 Tim Shi曾在OpenAI工作1年,参与多个项目,包括开放域平台World of Bits与OpenAI Universe,后者是用于在游戏与网站上训练与测量AI智能的软件。2017年,他离开这家初创公司,共同创办Cresta,一家能提高工作效率的AI教练公司。 Shi说,在OpenAI工作的日子,让他体会到在团队中与许多人才一起工作的乐趣,这段经历帮他在自己初创公司管理人才。这让自己认识到高人才密度环境的价值,并促使公司在招聘时保持高标准,只招收最优秀的人才。 在加入OpenAI之前,Shi还是文件共享公司Dropbox软件工程师,专注机器学习。他毕业于清华大学,现在旧金金山工作。 Jonas Schneider:Daedalus创始人兼CEO 融资总额:1,750万美元 知名投资人:Khosla Ventures、YC、LEA Partners 员工数量:50人 在OpenAI职位:技术负责人 Jonas Schneider在德国Karlsruhe Institute of Technology获得计算机科学学位后,2016年在OpenAI担任技术负责人。 在OpenAI工作3年里,他与同事共同创建OpenAI机器人团队,并领导该团队软件工程。凭借这些经验,Schneider创办机器人初创公司Daedalus,旨在帮助工厂及其生产机器人提高效率。 Daedalus是YC winter 2020 cohort的一部分,并从Khosla Ventures与LEA Partners等公司筹集到1,750万美元资金。 该公司利AI机器人技术,为全球工厂生产定制原型与批量零件。 Jonas Schneider告诉Silicon Canals,Daedalus正在填补的空白是,生产机器人需不断为新任务或新物品重新编程。 目前,机器人编程的繁琐程度,限制了它们在大批量生产中应用,但我们软件驱动型工厂使高精度制造具有可扩展性,并将大批量生产的高效性带到多品种制造中。 Josh Tobin、Vicki Cheung:Gantry联合创始人 融资总额:2,830万美元 知名投资人:Coatue、Index Ventures、Greg Brockman 在OpenAI职位:Tobin是研究科学家,Cheung是创始工程师与基础设施负责人 2019年,OpenAI前研究科学家Josh Tobin在UC伯克利,与OpenAI基础设施负责人Vicki Cheung一起教授深度学习课程时,两人意识到为AI工具构建支持基础设施所面临问题。 Cheung曾担任过Duolingo创始工程师与Lyft高级工程师,Tobin获得伯克利大学计算机科学博士学位。 2020年,两人秘密创办Gantry,2022年正式浮出水面。 这家AI初创公司致力机器学习运营MLOps领域,让团队能训练自己AI系统,并评估在重新训练时应使用哪些数据。 公司就能更高效部署AI系统,更好与客户互动。PitchBook统计数据,Gantry从OpenAI总裁兼联合创始人Greg Brockman与Coatue等人那里,获得2,830万美元融资,接下来目标是努力获取客户,并扩大员工人数。 Margaret Jennings:Kindo联合创始人兼产品副总裁 融资总额:700万美元根据公司数据 知名投资人:Riot Ventures、Eniac Ventures 员工数量:13人 在OpenAI职位:应用团队成员 Margaret Jennings 2022年8月加入OpenAI应用团队,工作6个月。她参与的项目之一,是将ChatGPT技术整合到摩根士丹利财务顾问服务中,该项目已于2023年底正式上线。 Jennings在OpenAI经历让她深刻理解到,将研究目标转化为产品设计时,确保产品的广泛可获取性,至关重要。 目前,Jennings正在Kindo工作,这是一家处于初创阶段公司,致力为企业级大语言模型应用开发安全层与产品层。 2023年2月公司成立以来,Kindo已成功筹集700万美元风险投资。在此之前,Jennings曾在数字健康领域初创企业Halodoc ID担任产品与AI副总裁,以及在谷歌担任全球领导职务。 她2013年毕业于巴德学院,并在伦敦大学学院获得计算机科学硕士学位,目前正在该校攻读以人为核心的AGI博士学位。 Jeff Arnold:Pilot创始人兼首席运营官 融资总额:1.74亿美元 知名投资人:红杉资本、Index Ventures、Bezos Expeditions 员工数量:250人 在OpenAI职位:运营主管 本科与硕士毕业于MIT的Jeff Arnold,是经验丰富的连续创业者。 2016年,他在OpenAI担任运营总监,任职5个月后,他创立自己第三家公司,Pilot。 Pilot是家金融科技公司,专注为企业提供会计管理服务。有趣的是,在2017年成立之初,OpenAI就成为Pilot首批客户之一;同时,Pilot也成为OpenAI客户。 Arnold在接受采访时表示:硅谷最大的魅力在于,技术人员汇聚一堂,共同完成超乎想象的成就,OpenAI就是这一切的最佳例证。 在创立Pilot与加入OpenAI之前,Arnold曾联合创办企业聊天应用Zulip,并在2014年被DropBox收购。他还曾创办企业软件公司Ksplice,后在2011年被Oracle收购。 Aravind Srinivas:Perplexity联合创始人兼CEO 融资总额:1.023亿美元 知名投资人:IVP、杰夫·贝索斯、红杉资本、英伟达等 员工数量:34人 在OpenAI职位:研究科学家 Perplexity是Aravind Srinivas于2022年在旧金山创立公司,致力打造领先的AI搜索引擎。 在一众主流LLM,如ChatGPT、Llama等加持下,用户只需像与人交谈一样向AI提问,就会得到有明确参考资料与来源的回答。 Srinivas表示,他成功获得包括红杉资本、Databricks、Github创始人Nat Friedman,以及前YouTube CEO Susan Wojcicki等投资者支持。 对创业者,他给出建议是要全身心投入到创意中去:当你刚开始创建公司时,虽然机会很多,很容易陷入同时做很多事情困境。 应该选择一个领域,全力以赴,集中资源与努力,争取做到最好。 这样做风险很大,但如果你创意不值得去冒这个风险,我认为,它也不值得你去创立这家公司。 Shariq Hashme:Prosper Robotics联合创始人兼CEO 融资总额:未公开 知名投资人:Scale AI CEO Alexandr Wang,Anthropic联合创始人Ben Mann,Notion联合创始人Simon Last 员工数量:11人 在OpenAI职位:技术人员 Shariq Hashme曾在OpenAI技术团队工作9个月,之后转投AI新贵Scale AI。凭借在AI领域经验与电子工程学位,2021年2月在伦敦创建Prosper,专注机器人技术的初创公司。 目前,Hashme团队正在研发打造既能执行多种任务,如洗衣、洗碗与打扫房间等,又能以合理价格吸引客户的机器人。 他在接受采访时表示,产品还尚未准备好面市。Prosper并未公开融资总额,Hashme表示,公司已得到包括Anthropic联合创始人Ben Mann、Notion联合创始人Simon Last在内投资者支持。 Ishant Singh:初创公司 融资总额:Bootstrapped 在OpenAI职位:AI安全团队 在新德里从事产品相关工作4年后,Ishant Singh前往亚利桑那州立大学攻读MBA。在此期间,他曾短暂在Amazon产品团队里参与Alexa开发工作。 2021年,他加入OpenAI信任与安全团队,负责确保AI模型输出内容安全,并监督终端用户遵循OpenAI安全指南。 2023年6月,他创立自己公司,目前处于发展早期阶段,已完成可行产品开发,正在进行种子轮融资。 他的产品是类似ChatGPT的AI平台,能与公司内各种数据源如Google Drive连接,使得LLM能更好理解上下文。该平台特点是不局限于特定模型,还能根据员工职级与信息访问权限提供相应指导。 Singh表示:我在OpenAI工作背景,已帮助吸引超过35家风险投资公司的关注。 这是在筹集融资阶段,任何一位从OpenAI毕业校友都具备的优势。 最后,他给了创业者一些建议:从工作中每一次成功与挫折中吸取教训,并且时刻留意客户与产品中的新机遇。来源:六合商业研选版权声明:部分文章在推送时未能与原作者取得联系。若涉及版权问题,敬请原作者联系我们。联系方式:[email protected]。微信扫码关注该文公众号作者戳这里提交新闻线索和高质量文章给我们。来源: qq点击查看作者最近其他文章