---- 本周为您解读 ⑯ 个值得细品的 AI 业内要事 ----
李飞飞的最亮「北极星」:搞机器人! 李飞飞划重点的具身人工智能是什么?实现具身智能有哪些具体要攻克的点?李飞飞还有哪些重要研究?有哪些大牛也在关注这个方向的研究?...马斯克新公司 xAI官宣「xAI」公司的技术路线与其他对标团队有何不同?「AI for Math」当前研究方向有哪些?「xAI」团队成员此前在「AI for Math」方面都有哪些研究?对标公司/研究机构在「AI for Math」方面有哪些动作?「XAI」原来是什么意思?... GPT-4 技术细节曝光 GPT-4 有哪些关键参数?模型架构、训练基础设施、推理基础设施、参数量?百度 - 文心一言、华为 - 盘古大模型 3.0 等当前主流模型参数情况如何?... FudanNLP 开源 MOSS-RLHF Moss 基座模型的前世今生了解一下?对 Moss 基座来说,这次的技术进展有哪些价值?关于对齐技术应该了解哪些内容?对齐有哪些不同的技术路线?... 毕马威拟投入 20 亿美元搞 AI 毕马威花20亿图个啥?毕马威此前在 AI 方面有哪些动作?其他会计事务所在 AI 方面有哪些相关动作?... 德扑 AI Pluribus 开发者Noam Brown 加入 OpenAI Noam Brown 是谁?Noam Brown 加入 openai 之后将带来什么?关于游戏 AI 与 LLM 相结合,业内人士怎么看?... 英特尔发布中国市场版LLM专用芯片 Gaudi2 关键参数有哪些? 国产大模型芯片们参数如何?... 西湖心辰再获汤姆猫战略投 西湖心辰融资情况怎么样?发过哪些产品?汤姆猫为何投西湖心辰?...
本期通讯总计 23043 字,可免费试读至 18 %
消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元)
② GPT-4 技术细节曝光
③ FudanNLP 开源 MOSS-RLHF
④ 马斯克新公司 xAI官宣
⑤ 毕马威拟投入 20 亿美元搞 AI
⑥ Transformer 扩至 10 亿 token
⑦ Noam Brown 加入 OpenAI
⑧ Transformer 八位作者作全部离职谷歌
⑨ 中国气象大模型登 Nature
⑩ 国内三大运营商多个大模型发布
⑪ 腾讯发布向量数据库
⑫ 京东官宣大模型路线图
⑬ OpenAI 推出插件 Code Interpreter
⑭ GPT-4 竞品 Claude 二代发布
⑮ 英特尔发布中国市场版LLM专用芯片
⑯ 西湖心辰再获汤姆猫战略投资
李飞飞的最亮「北极星」:搞机器人!
事件:李飞飞团队发表具身智能新研究成果,推出 VoxPoser 系统,将大模型接入至机器人,可在无需额外数据和训练的情况下,将复杂指令转化为具体的行动规划。1、VoxPoser 系统的实现主要分为三个步骤:1)输入:给定环境信息以及需要执行的自然语言指令;2)处理:由 LLM、VLM 两部分构成。LLM 根据输入信息编写代码,然后与 VLM 进行交互,生成指令相应的操作指示地图即 3D Value Map;3)控制:将 3D Value Map 输入至动作规划器中,合成机器人所需执行的操作轨迹。2、相比于传统方法需要进行额外的预训练,VoxPoser 系统通过用大模型指导机器人如何与环境进行交互,解决了机器人训练数据稀缺的问题,可以实现零样本的日常操作任务轨迹合成。3、VoxPoser 将指令拆解成多个子任务,在操作指示地图生成过程中,通过在操作指示地图中标记的值来反应哪个物体是对其具有「吸引力」的,那些物体是具有「排斥性」,从而使得机器人在收到干扰时可以快速进行重新规划,有着很强的抗干扰能力。4、此外,VoxPoser 产生了 4 个涌现能力,包括评估物理特性、行为常识推理、支持细粒度校正以及基于视觉反馈的多步操作。李飞飞划重点的具身人工智能(embodied AI)了解一下?1、具身智能的概念翻译于英文 embodied AI,字面意思为具有身体的人工智能。该概念的起源最早可追溯到 1950 年人工智能源点级人物艾伦·图灵的理论设想。2、1986 年,著名的人工智能专家布鲁克斯(Rodney Brooks)提出:智能是具身化和情境化的,传统以表征为核心的经典 AI 进路是错误的,而清除表征的方式就是制造基于行为的机器人。3、在2022年的春季,李飞飞在美国文理科学院的Dædalus期刊上发表了名为《Searching for Computer Vision North Stars》的文章。此篇文章中,她解析了物体识别和ImageNet数据集的历史演变,并提出了"北极星"——科学领域关键问题的重要性,作为推动科技突破的主要动力。文章进一步提出了未来计算机视觉发展的三个主要方向,被命名为"3颗北极星",包括"具身智能"、"视觉推理"和"场景理解"。文章中,"具身智能"被定义为一种可以执行导航、操作和命令执行等任务的机器人。李飞飞在文章中提到,具身智能可能会成为人工智能领域的下一个"北极星问题"。具身AI的发展可能带来一种从具备图像识别等简单机器学习能力的系统,转变为能学习如何通过多个步骤执行复杂人类任务的系统的转变。在讨论具身AI时,文章提到,机器人可以被看作是具身AI和强化学习在现实世界中的物理实现。这不仅包括传统意义上的人形机器人,还包括任何在空间中移动的实体智能机器,如自动驾驶汽车、机器人吸尘器,或是工厂里的机械臂。文章认为,与ImageNet旨在捕捉现实世界中图像的广泛多样性一样,具身人工智能的研究也需要应对人类任务的复杂多样性,这可能涵盖从简单的叠衣服到复杂的新城市探索等各种任务。目前具身智能的实现方法主要基于技能训练(skill training),这些基本技能是短时任务解决方案,时间尺度为 2-3 秒,最多 4-5 秒。通过将这些基本技能串联起来,可以完成复杂任务。然而,这些基本技能却是瓶颈,挑战涉及到视觉、摩擦力、转动惯量变化、物体的硬度和形状变化等问题。1、物体操作技能学习:物体操作技能学习是具身智能的基石任务,需要大量数据进行训练,数据可以来自真实世界或生成的合成数据,如模拟器。2、视觉导航技术:视觉导航是具身智能中的重要部分,需要研究并发展相关的前沿技术。3、智能体支撑:具身智能需要人形机器人、机械臂等智能体支撑,而这些支撑技术需得到越来越多的关注,为具身智能的发展提供基础。4、能力融合:真正的智能应该是各种能力相结合的智能,包括感知、认知和行为等方面。5、泛化能力:具身智能在进入新环境后,需要有良好的泛化能力来适应不同的环境特征和物体特征。6、高级与低级任务处理:对于高级任务,如指示机器人进行一项任务,机器人能够较好地理解并拆解任务。然而,对于低级任务,如具体的物理操作,机器人如何用夹爪抓起杯子,如何双手配合撕开速溶包等,这些非直观的低级问题更难实现。(来源:上海期智研究院「具身通用人工智能(Embodied AGI)」主题论坛嘉宾分享观点,在不改变原意的情况下进行了提炼编辑。)2023年6月,微软亚洲研究院和华中科技大学提出 SAN 框架,用于基于预训练的视觉语言模型进行开放式语义分割,该框架降低了参数数量、节约了计算成本。2021年6月,谷歌提出预训练视觉-语言模型 ALIGN(A Large-scale ImaGe and Noisy-text embedding),支持 Zero-Shot 视觉分类和跨模态搜索,包括以图搜文,以文搜图,甚至联合使用图像+文本进行搜索。2021年1月,OpenAI 发布 CLIP(Contrastive Language-Image Pre-training),一种基于对比文本-图像对的预训练模型。与 CV 中常用的先预训练然后微调不同,CLIP 可以直接实现 zero-shot 的图像分类,即不需要任何训练数据,就能在某个具体下游任务上实现分类。2023年6月,AI2 提出 SwiftSage,通过模仿学习得到一个小型模型,然后将其与 LLM 进行融合。这样,便可以利用大量数据对小型模型进行微调,使其具备环境和任务相关的知识,以此理解动态变化的真实场景并进行复杂交互。2023年3月,谷歌发布通才模型PaLM-E。PaLM-E是一种多模态具身视觉语言模型 (VLM),能够理解图像以及理解、生成语言,并且能将两者结合起来处理复杂的机器人指令。2022年10月,南加州大学和英伟达提出了一种基于 LLMs 规划动作序列的方法 ProgPrompt,该方法在规划中引入了有关场景的信息,提高了动作序列的任务成功率。其通过一种程序化的 Prompt 结构使得大语言模型可以在不同环境条件下,为具有不同技能的机器人生成不同任务的动作序列。该方法可以广泛应用于新的场景、智能体和任务上,包括真实机器人部署。该项目论文共有 6 位作者,除了李飞飞外,分别为:1、黄文龙(Wenlong Huang),斯坦福博士生,在加州大学伯克利分校获得了计算机科学学士学位。在谷歌实习期间参与了 PaLM-E 研究。研究方向为机器人学习,致力于构建能够在具体环境中做出智能决策并在具有挑战性的场景中具有通用运动技能的智能体。2、吴佳俊(Jiajun Wu),本科毕业于清华大学交叉信息研究院姚班,博士毕业于 MIT,现为斯坦福大学助理教授,隶属于斯坦福人工智能实验室 (SAIL)和斯坦福视觉与学习实验室 (SVL)。目前,研究方向主要为物理场景理解、动力学模型、神经符号视觉推理、生成视觉模型、多模态感知。3、Ruohan Zhang,斯坦福视觉与学习实验室(SVL)博士后研究员, Wu Tsai Human Performance Alliance 研究员。主要研究方向为机器人技术、人机交互、脑机接口、认知科学和神经科学。4、Yunzhu Li,斯坦福大学视觉与学习实验室 (SVL)的博士后学者,在麻省理工学院计算机科学与人工智能实验室 (CSAIL)获得了博士学位,在北京大学获得了学士学位,研究方向为机器人、计算机视觉和机器学习。5、Chen Wang,斯坦福大学计算机科学专业博士生,在上海交通大学获得了计算机科学学士学位。在加入斯坦福大学之前,在 Chen Wang 机器视觉与智能小组工作,师从卢策武教授。曾在麻省理工学院 CSAIL 担任实习研究员。1、Jim Fan:英伟达首席科学家,于 2021 年获得斯坦福大学博士,师从李飞飞。此前曾在 NVIDIA、Google Cloud AI、OpenAI、百度硅谷 AI 实验室和 Mila-Quebec AI Institute 研究实习。2、李佳:于 2011 年获得斯坦福大学博士学位,前谷歌云 AI 研发主管、谷歌 AI 中国中心总裁。曾参与 ImageNet 研究,在谷歌任职期间与李飞飞合作发布多个 AutoML 新产品和 Contact Center AI 集虚拟助理,并推动谷歌 AI 中国中心建立,其离职后将围绕行业 AI 进行创业。3、邓嘉:2012 年于普林斯顿大学获计算机科学博士学位并留人教职,期间参加李飞飞的 ImageNet 项目,是 ImageNet 的第一作者。其提出一种新的光流深度网络架构——递归全对场变换(RAFT)。RAFT 提取每个像素特征,为所有像素对构建多尺度 4D 相关体,并通过一个循环单元迭代更新流场,该单元执行相关体积的查找,获 ECCV 最佳论文奖。4、Andrej Karpathy:前特斯拉总监,于 2016 年获得斯坦福大学博士学位,师从李飞飞。曾负责特斯拉 FSD 的开发,现加入 OpenAI。5、Timnit Gebru:于 2017 年获得斯坦福大学博士学位,研究领域为计算机视觉。曾任谷歌人工智能伦理团队的联席技术负责人。此外,Timnit 还是非裔 AI 科学家社区 Black in AI 的联合创始人。6、Justin Johnson:于 2018 年获得斯坦福大学博士学位,研究涉及视觉推理,视觉和语言,图像生成, 以及使用深度神经网络的 3D 推理。目前是密歇根大学的助理教授 以及 Facebook AI Research(FAIR)的研究员。7、朱玉可:本科毕业于浙江大学,并取得了浙江大学和加拿大西蒙弗雷泽大学的双学位。硕士和博士研究生就读于斯坦福大学,师从李飞飞,并于 2019 年 8 月取得博士学位。朱玉可现任 UT Austin 计算机科学系助理教授,同时是机器人感知和学习实验室的主任,以及英伟达研究院高级研究科学家。主要研究将融合机器人、计算机视觉和机器学习等诸多领域,并致力于开发用于通用机器人自治的感知和控制方法和机制。1、2009 年,李飞飞、Jia Deng 等研究员在 CVPR 2009 上发表了一篇名为《ImageNet: A Large-Scale Hierarchical Image Database》的论文,这篇论文描述了 ImageNet 数据集基准的创造、物体识别领域的研究进展。ImageNet 项目是一个大型视觉数据库,用于视觉目标识别软件研究。该项目已手动注释了 1400 多万张图像,以指出图片中的对象,并在至少 100 万张图像中提供了边框。2、2021 年,李飞飞与 Percy Liang 等百余位学者联名发表了一份 200 多页的研究综述《On the Opportunities and Risk of Foundation Models》,系统阐述了大规模预训练模型背后的机遇与风险。此外,斯坦福大学的师生、研究人员成立了「基础模型研究中心(CRFM)」,是斯坦福 HAI 的一个新的跨学科项目。3、2022 年,李飞飞在美国文理科学院的会刊 Dædalus 上发表了一篇文章,以计算机视觉中的物体识别任务为切入点,研究了 ImageNet 数据集及相关算法的发展历程。在这篇文章中,李飞飞指出了未来计算机视觉发展的三个方向(也称为「3 颗北极星」),分别为具身智能、视觉推理和场景理解。李飞飞提到的其他两个方向有哪些重要的工作值得关注一下?1、2022 年 10 月,来自英伟达、斯坦福大学等机构的研究人员共同提出一个基于 Transformer 的通用机器人智能体 VIMA,利用多模态的 prompt,实现极高的泛化性能,能够处理大量的机器人操作任务,输入的 prompt 为交错使用的文字和视觉符号。在同等尺寸的模型、等量训练数据的情况下,VIMA 在最难的 zero-shot 的泛化设置下任务成功率为当下 sota 方法的 2.9 倍。2、2022 年 10 月,斯坦福大学计算机系的 Ranjay Krishna、Donsuk Lee、李飞飞、Michael Bernstein 等人提出了一个智能体从与人的交互中学习的形式框架,并通过使用语言交互的视觉模型验证了该框架的实用性。在这项工作中,研究团队将社会化 AI 形式化为一个强化学习的过程,即智能体通过从社会互动中获取的奖励来学习识别有信息量的问题。在一个视觉问答任务的测试中,与其他智能体相比,社会化智能体识别新视觉信息的性能提高了 112%。3、2022 年 8 月,斯坦福大学李飞飞团队提出 MaskViT,通过 MVM,掩码视觉建模对 Transformer 进行预训练,从而建立视频预测模型。研究团队团队展示了真实机器人使用 MaskViT 进行实时规划的效果,推理速度最高可提升 512 倍。上海期智研究院是上海市科学技术委员会所属事业单位,由图灵奖得主、中科院院士姚期智先生牵头组建。在上海市的大力支持下,研究院于2020年1月9日揭牌,同年9月底入驻徐汇西岸智塔。姚期智先生是世界著名计算机学家,2000 年图灵奖得主,中国科学院院士,美国科学院外籍院士,美国科学与艺术学院外籍院士,国际密码协会会士,清华大学交叉信息研究院院长,"清华学堂计算机科学实验班""清华学堂人工智能班"首席教授,973 项目首席科学家,香港中文大学博文讲座教授。