“AI教母”李飞飞创建公司:探索“空间智能”
她的征途是星辰和大海”
近日、据路透社独家报道,著名计算机科学家、“AI教母”李飞飞正建立一家初创公司,该公司利用类似人类的视觉数据处理方式,使人工智能能够进行高级推理,这将是人工智能技术的一次飞跃。
AI教母李飞飞
她是美国三院院士,也是现代人工智能的关键催化剂 ImageNet 创建者,前谷歌副总裁、谷歌智能云及人工智能及机器学习首席科学家,《时代》百大AI影响力人物,斯坦福大学计算机科学系首任红杉讲席教授。
其门下高徒颇多,比如先后在OpenAI、特斯拉任职的Andrej Karpathy、目前在英伟达的Jim Fan等。
她的征途是星辰和大海,起点却是美国东北部的臭水沟。
16岁时,李飞飞和父母移民到美国,一家三口挤在一个只有一间卧室的公寓里,家具是从路边遗弃的垃圾里捡的。没有积蓄,不会说英语,靠繁重的体力劳动维持生计。
为了赚钱,李飞飞在饭店刷过盘子,在干洗店打过工。每一个不上学的日子,李飞飞都会去打零工。每天从上午11点工作到晚上11点,总共12个小时,时薪2美元。
没有人会想到,这样一个贫穷而普通的女孩,之后会成为席卷全球的AI革命的核心人物之一。在一贯由男性主导的人工智能技术领域里,她的一系列开创性成就无疑是非常耀眼的存在。
1995年高中毕业时,她以异于常人的努力,撕掉了“移民差生”的标签,总成绩在年级排名第六,位列优秀毕业生。她的SAT成绩1250分,其中数学满分。麻省理工学院、罗格斯大学、普林斯顿大学......纷纷抛来录取通知。
这个华裔女孩的励志故事也震惊了整个小镇,新泽西州当地的报纸还专门为此对她进行了报道,但是年轻的李飞飞明白,要实现梦想,这才刚刚开始。
李飞飞的学术旅程始于普林斯顿大学,在那里她获得了物理学学士学位。随后,她在加州理工学院继续深造,获得了电子工程博士学位。这一路的学术探索,为她日后在AI领域的突破性工作奠定了坚实的基础。
在加州理工学院读博时李飞飞开始探索大脑如何处理它所看到的东西,她的直觉是,向机器教授视觉理解可能是创造人工智能的关键,她开始通过一个庞大的数据库对图像进行分类,以向计算机传授视觉知识,最终在2009年她推出了ImageNet。
ImageNet,一个庞大的图像识别数据库,是人工智能史上最大的数据集,包含 1500 万张图像,涉及 22000 个类别。这些图片从近10亿张候选图片中筛选出,并由来自167个国家的近5万名贡献者进行标注。每张图片都经过了手工标注,并在层次结构中进行了组织,经过三重验证,ImageNet成为了世界上最大的图像标记数据集。
随后,为了提升 ImageNet的名气,李飞飞举办了ImageNet大规模视觉识别挑战赛,从创办开始五年多时间里,ImageNet 挑战赛已经发展成为计算机视觉领域的基础赛事,为该领域的技术进步提供了共同的基准。在李飞飞的引领下,ImageNet挑战赛推动了深度学习技术在图像识别领域的突破性进展,为后续的AI应用奠定了坚实的基础。
ImageNet的成功,是李飞飞对AI领域最直观的贡献,它不仅加速了计算机视觉技术的发展,更激发了全球研究者对AI潜能的无限想象。
新的北极星
李飞飞创业方向是什么?
李飞飞的新公司致力于开发“空间智能”技术,旨在让AI能像人类一样对视觉信息进行高级推理,从而实现更复杂的行为和决策。在AI的星辰大海中,空间智能是一片充满未知与挑战的领域。
李飞飞在温哥华举行的 TED 大会中发表了演讲,其内容与空间智能相关。李飞飞介绍空间智能是通过理解物体之间的关系,从中得到新的发现或预测。这是比传统视觉识别更高级的计算机视觉智能,是综合自然语言大模型、机器人、计算机视觉多领域研究成果的一门研究,机器可以像人类一样进行更复杂的视觉推理,进而采取更贴合实际的行动。
为了进一步解释「空间智能」这一概念,她在演讲中展示了一张 “猫伸出爪子要把玻璃杯推向桌子边缘” 的照片来帮助观众理解何为空间智能:人类大脑通常这一瞬间可以评估玻璃杯的几何形状、玻璃杯在真实三维世界中的位置、杯子与桌子、猫和其他物体的关系,并且可以预测接下来会发生什么,采取行动。
她补充说,她在斯坦福大学自己的实验室试图教计算机“如何在3D世界中行动”,例如,通过使用一个大型语言模型让一个机器人手臂执行打开门和制作三明治等任务,以响应口头指示。空间智能技术的发展将促进AI系统与物理世界的更深层次互动,让机器人能够根据自然语言指令执行复杂的任务。
从之前的蛛丝马迹或许能够了解到李飞飞团队对空间智能领域展开的研究。
2023年李飞飞团队发表论文《 VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models 》,提出的VoxPoser使用了 LLM+VLM 直接在 3D 感知空间中标记可供性和约束,以便在现实世界中进行zero-shot机器人操作!
论文:https://arxiv.org/pdf/2307.05973
项目链接:https://voxposer.github.io/
而VIMA 智能体能像 GPT-4 一样接受多模态的(文本、图像、视频或它们的混合 )Prompt 输入,然后输出动作,完成指定任务。
论文:https://arxiv.org/abs/2210.03094
项目链接:https://vimalabs.github.io/
另外在职业社交网站上,李飞飞将自己的当前工作状态描述为新手和新事物,从2024年1月开始。
在AI的星辰大海中,李飞飞教授不仅是探索者,更是领航者。她对未来的展望,不仅是对技术的预测,更是对未来社会和人类生活的深思。在她看来,AI不仅是工具,更是解决现实世界问题的伙伴。
她的故事,还远未结束;她的未来,值得期待。
“我不禁想到自己第一次来华盛顿时的情形,当年我还不知人工智能为何物,还没有进入学术界,与硅谷也没有任何联系。当时我的整个身份可以用一个词来概括,那就是——移民。
像许多移民一样,我感到被各种纵横交错的文化鸿沟所束缚。一些鸿沟不可名状,另一些则清晰地横亘在我的面前,难以跨越。我是一名女性,而我所在的研究领域由男性主导,“帽衫男”一直是科学领域的典型形象,以至这个词现在已经没有任何讽刺的意味了。这么多年来,我一直在思考自己是否真正属于哪个世界。”
--源自《我看见的世界:李飞飞自传》,中信出版集团 2024
「往期推荐」
微信扫码关注该文公众号作者