【光轮智能】完成数千万元融资 | 奇绩校友融资新闻
36氪获悉,合成数据公司「光轮智能」近期完成了天使(+)轮融资。这家今年刚成立的新公司,已经完成种子轮、天使轮、天使(+)三轮融资,累计融资金额达数千万元人民币,投资方包括 SEE Fund、奇绩创坛、辰韬资本、变量资本等。
光轮智能致力于为企业落地 AI 提供合成数据解决方案,结合生成式 AI 和仿真技术,为行业提供 3D、物理真实、可泛化的合成数据,解决自动驾驶、具身智能发展中真实数据利用率低、标注成本高、回环周期长、长尾场景(Corner Case)缺乏等问题。目前,公司产品已经开始服务于数家自动驾驶和机器人公司。
光轮智能创始人兼 CEO 谢晨博士是国际顶尖的仿真专家,曾在英伟达、Cruise、蔚来等企业担任自动驾驶仿真负责人,国际首创将生成式AI融入仿真,有行业内最多次从0-1的合成数据开发、落地经验。
数据是 AI 的燃料。在深度学习算法中,通过大量的标注数据,算法能够学习不同类型的模式和规律,也只有大量、完整且高质量的训练数据,才能增加算法模型的可靠性。今年爆火的大模型 GPT,其进化核心就来自于数据和参数的增加。同时,在今年的 ITF World 2023 半导体大会上,英伟达创始人兼 CEO 黄仁勋提出,下一波 AI 浪潮是“具身智能(embodied AI)”,即能够理解、推理并与物理世界互动的智能系统,包括机器人、自动驾驶汽车等。这些人工智能的最新发展,无不需要大量高质量 3D 数据进行训练。实际上,现阶段在自动驾驶领域,特斯拉、Waymo、Cruise 等行业头部玩家,都在通过大量的路上数据回传方式收集数据,以提升算法水平。
⽽当下的算法迭代也已经“吃”掉了⼤量数据,业内⼀些研究表明,⾼质量的真实数据正成为越来越稀缺的资源。⼀篇⿇省理⼯学院等⾼校、机构联合发布的论⽂推测,⾼质量的语⾔数据将在2026年前被耗尽,⽽⾃动驾驶、机器⼈需要采集的是 3D 物理真实的动态场景数据,获取更加困难、相对⽂本更加稀缺⸺⾃然数据的积累未来很难满⾜ AI 对数据的需求。
不过,⼤规模的数据获取是⼀场旷⽇持久的资源竞赛。传统的⾃动驾驶、机器⼈等⾏业数据采集和标注⼤量依赖⼈⼯,成本⾼且质量难以保证,同时真实数据难以跨⻋型、平台使⽤,造成了利⽤率低、存储成本⾼等问题。另外,⾃动驾驶中⼤量的 Corner Case 难以捕捉,这些都让⾃动驾驶的数据获取拉出了超⻓战线,模型算法也得不到突破性提升。
“合成数据”有望在很⼤程度上解决 AI “数据饥渴”的问题。顾名思义,这是⼀种通过 AI 和仿真、基于⼩样本真实世界数据⽣成的数据。合成数据的优势是采集成本低,⾃带标注,跨平台通⽤性强,甚⾄能有针对性地⽣成潜在危险场景、补充边缘场景。
在⾃动驾驶领域,特斯拉、Waymo、Cruise、英伟达等企业均不同程度地布局了合成数据技术,将其作为技术栈的核⼼之⼀。例如, 谢晨博⼠主导过 Cruise、英伟达等合成数据技术0-1落地,已经是算法训练重要的燃料来源。
谢晨告诉36氪,业内更常见的合成数据来源于仿真,但仿真数据无法满足模型训练的高质量需求。在仿真的基础上融合生成式 AI,以一小部分真实数据为蓝本,通过生成式 AI 技术来放大数据量级,并基于自研的“端到端真实性评测算法”保证数据质量和效能,可生成高信息增量的、用于算法训练的数据。
“生成式 AI 技术在过去一年飞速发展,精确可控度、泛化性、质量大幅提升。经过生成式 AI 与仿真结合,我们可以基于客户的数据,为他们提供百万车队量级的数据规模和能力。你可以想象,通过光轮每个自动驾驶公司、主机厂、机器人公司都可以拥有特斯拉车队量级的数据能力。”谢晨表示,而这些数据的成本只有真实数据的十分之一。
合成数据需要足够真实、可泛化,代表物理世界的场景分布,且可以给模型训练提供信息增量,这依赖于合成数据厂商自身的 AI 算法以及仿真能力。光轮智能组建了一支生成式 AI+ 仿真的国际领先的专家团队,凭借最多次合成数据的落地经验和独创的真实性评测算法,可保证每一帧数据都足够真实、对模型有价值输入。近期,光轮智能入选北京市通用人工智能产业创新伙伴计划,是数据伙伴中唯一合成数据厂商。
OpenAI 创始人 Sam Altman 曾公开表示:“合成数据是解决大模型数据短缺的最有效办法。”光轮智能希望通过算力驱动的数据来替代现有人力驱动的数据,进而推动数据界结构性变革,将数据边际成本变为固定成本,打造 AI 时代“数据界的英伟达”。
微信扫码关注该文公众号作者