---- 本周为您解读 ⑤ 个值得细品的 AI & Robotics 业内要事 ----
1. 机器人 + LLM ≠ 具身智能?
通用人形机器人+LLM技术路线的下一程是什么?通用机器人 + LLM 通往具身智能有哪几大技术挑战?在LLM爆火前,波士顿动力是怎么做机器人的?场景理解(Scene Understanding)和人机协作技术的突破将带来哪些机会?...
2. Llama 2 的开源生态,是馅饼还是陷阱?
Llama 2 带来的开源生态可靠吗?Baichuan-2 有望成为 Llama 2 的国产平替吗?开源LLM训练切片的意义何在?开源与闭源,国内大模型领域竞争格局是什么样的?...
3. 用「AI」替代「H」,RLAIF 靠谱吗?
RLAIF 是如何实现的?AI 标注如何增强 RL?RALIF 的优势在哪?基于 RLAIF 训练的LLM表现如何?RLAIF 替代 RLHF 这事可行吗?未来还会需要 RLHF 吗?谷歌近期还有哪些关于 RL 研究?...
4. OpenAI 被爆秘密训练 GPT-5
GPT-5 有有八卦了?GPT-5 的功能传成什么样了?GPT-5 真的存在吗?Sam Altman 之前说没搞 GPT-5?...
5. AI 接管翻译工作用了几年?
西语网站编辑老师为何全部被「裁」?用 AI 翻译网站靠谱吗?从谷歌开始的 AI 翻译发展史了解一下?你记得十年前的 AI 翻译什么样吗?现在的 AI 翻译又要往哪发展?...
...本期完整版通讯含以上 5 项专题解读 + 29 项本周 AI & Robotics 赛道要事速递,其中技术方面 9 项,国内方面 11 项,国外方面 9 项...
本期通讯总计 24646 字,可免费试读至 7 % 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 要事解读 ① 机器人 + LLM ≠ 具身智能?
事件:稚晖君近期于访谈中透露其创业团队的通用人形机器人+LLM 发展计划,包含建立数据中心和对硬件结构进行迭代重构。关于通用人形机器人 + LLM 技术路线的下一程,稚晖君有何想法?1、稚晖君于访谈中表示,在 LLM + 通用人形机器人这条具身智能技术路线中,核心门槛在于数据。智元机器人近期的工作重心之一是建立自己的数据中心。① 稚晖君总结其数据工作将涉及「监督学习数据」、「仿真数据」和「AIGC 生成数据」。② 稚晖君表示下一步计划在几个月内落地临港,搭建场景和仿真平台,用于填补运动数据,以加强机器人的泛化能力。2、智元机器人的另一个工作重点是以增强机器人的运动性能目标,对硬件结构进行迭代重构。3、对于产品价格,智元机器人当前表示人形机器人落地控价在 20 万元内。① 稚晖君表示如果无法达到 20 万元的价格,人形机器人无法实现商业化落地。② 20 万元的估价可对比机器人代替新能源汽车制造业部分工人岗位所需要的 1-2 年投资回报期。4、智元机器人团队为量产控制成本的方法涉及两方面:① 采用自研路线,如自研关节电机和灵巧手等核心部件能让成本减半;② 用软件和算法弥补硬件方面的精度要求,降低硬件成本;5、稚晖君表示,其瞄准的首个应用场景是工业制造领域,预计明年下半年商业化落地。6、稚晖君还提到公司商业化的一条隐线,即:在走向通用人形机器人的终极目标的途中「沿途下蛋」。① 通用人形机器人牵涉到最全面的机器人技术栈,其实现过程涉及多种前沿技术的研发和优化,可以催生多种专用形态的创新机器人产品。除了智元机器人的远征A1,国内还有哪些团队在做通用人形机器人?[6] [7]
通用机器人 + LLM 就等于具身智能吗?[2] [3] [26]图灵奖获得者、中国科学院院士、清华大学交叉信息研究院院长姚期智在2023世界机器人大会中表示:未来的AGI需要有具身的实体,同真实的物理世界相交互来完成各种任务,这样才能给产业带来真正更大的价值。同时,姚期智指出,具身机器人目前遇到的主要有四大挑战:1、机器人不能够像大语言模型一样有一个基础大模型直接一步到位,做到最底层的控制。2、计算能力的挑战。即使谷歌研发的Robotics Transformer模型,要做到机器人控制,距离实际需要的控制水平仍有许多事情要做。3、如何把机器人多模态的感官感知全部融合起来,仍面临诸多难题需要解决。4、机器人的发展需要收集很多数据,其中也面临很多安全隐私等方面的问题。在 LLM 爆火之前,波士顿动力是怎么做机器人的?2021 年,波士顿动力高级机器人工程师、Atlas 感知软件开发负责人 Pat Marion 发布文章,解读了 Atlas 跑酷背后的技术。[4]1、Atlas 实现优秀的跑酷能力主要涉及「跑酷认知能力」、「Atlas 行为库」和「模型预测控制」三方面技术。2、跑酷认知能力:涉及 TOP 深度相机、感知算法、高级地图等组件。① Atlas 使用 TOF 深度相机以每秒 15 帧的速度生成环境的点云,点云是测距的大规模集合。② TOF(Time of flight)直译为「飞行时间」。其测距原理是通过给目标连续发送光脉冲,然后用传感器接收从物体返回的光,通过探测光脉冲的飞行(往返)时间来得到目标物距离。