如果数据被大模型耗尽,我们还能看到通用人工智能吗?|GGView
GGV有话说:
来源:自动驾驶下半场
开发大模型的关键要素是什么
1.算力让大模型成了财富的游戏
2.算法模型为中心的开发模式已过
3.数据成为大模型开发核心要素
OpenAI大模型的成功正是出自Ilya对于大数据大模型量变带来质变的坚信。例如ChatGPT用了至少40T的大规模数据进行训练,而且如果有效数据量继续增加,其能获得更好的表现。根据Google研究Emergent Abilities of Large Language Models,在模型参数的某一个临界点, 突然模型获得了令人意想不到的能力。
高质量的数据是稀缺的
并非所有人类活动产生的痕迹都能用于模型训练,只有高质量的数据进入模型训练中才能产生最好的效用。在自然语言处理领域,高质量数据自然是数字化书籍和科学论文。拥有较好的前后逻辑关系,也能保证相对正确。而低质量数据例如聊天记录、电话等,由于数据连续性不强,对训练的作用也相对有限。在ChatGPT 3 的开发文档中提到,数据过滤在对45TB的纯文本进行质量过滤后,获得了570GB的文本,仅仅使用了1.27%的有效数据。在自动驾驶领域,高质量的数据是大量不同场景产生的。例如曲率相对较小的道路可能出现的频率非常高,但是实际上,出现次数越多,其重要性越弱。反而一些不常规的场景(即Corner Case),数据的质量更高,也需要单独对其做场景适配。而这些相对较小的样本,面对大模型的参数要求,几乎是杯水车薪。
数据安全和隐私带来的局限性
Generative AI的发展一直伴随着数据安全的争议。Stable Diffusion开放使用之后,就引起了众多艺术家的不满,迫于压力,Stability AI宣布允许艺术家们定向删除自己的作品,阻止其进入训练集中。在某些情况下,公开数据可能包含敏感信息,如个人身份、财务信息或医疗记录等。在许多行业和地区,包含敏感信息的数据是非常难以获取的,这提高了数据收集的难度,也降低了对应数据集增长的速度,也就成为了行业大模型的掣肘。例如医疗领域,由于领域的特殊性及私密性,在严格的隐私保护和法规限制下想要获取到可以用于大模型训练的数据量,无异于天方夜谭。
高质量的真实数据可能不足以支持大模型的训练
论文《Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning》探讨了数据短缺(数据量不足以满足大模型训练的需要)的可能性,按照目前的模型的增长速度,到2026年左右,高质量的NLP数据将会不足以支持训练。语言和视觉模型的数据存量的增长速度比训练数据集的大小慢得多,所以如果按照目前的趋势继续下去,数据集最终会因为数据枯竭而停止增长。在数据量越来越多的情况下,在非可控的数据收集方式中,大部分数据的收集是没有任何意义的。例如自动驾驶场景,车辆在路上不断收集新的数据,但是实际能够被使用的只能是凤毛麟角。因此,在最近一次Nvidia CEO黄仁勋与Ilya Sutskever的对谈中,他们也探讨了数据被耗尽的可能性。
合成数据可以满足大模型的巨量数据要求
合成数据具有信息增量
在真实数据中学习到数据的分布,并且依据这种分布生产出更多的数据,保证多样化的场景下都有足够的数据用于大模型的训练。不同元素的组合带来了不同的场景,场景的变化也就带来了信息的增量,进而保证了合成数据的有效性。根据OpenAI和UC Berkeley在2017年的研究,以实际场景出发,泛化摄像头的位置,物体颜色,形状,光照等,生成大量的合成数据用于物体检测模型的训练。在完全没有使用真实数据的基础上,检测模型的3D误差保持在1.5cm以内,而且具有了非常好的鲁棒性。
合成数据的成本优势巨大
数据的成本来自于采集和标注,在这两部分,合成数据都有显著的优势。相对于真实数据低效的收集方式,合成数据可以定向生成场景,让每一个字节的数据都是有价值的。不需要大量的数据采集团队,也不需要大规模的数据回传系统和数据筛选系统,合成数据从生产开始就根据模型训练的需求出发,大部分产出都可以直接使用,也就降低了数据采集成本。同时,合成数据标注成本相较于真实数据有非常大的优势,根据数据服务平台Diffgram的估算,在自动驾驶图像标注上,平均一个标注框价格约为0.03 美元,整体一张图完整标注约为5.79美元,而对于合成数据,标注价格基本接近于零,有的只是数据计算成本,只需要约6美分。总之,合成数据可以更加可控地,更加高效,并且低成本批量生产海量数据,用于大模型的训练。如果说真实数据的收集还停留在刀耕火种的农牧时代,那合成数据的生产就进入了高效自动的工业时代,低成本提供大规模高质量的产品。根据《MIT科技评论》将合成数据列为2022年全球十大突破性技术,认为合成数据可以解决数据资源不丰富的领域人工智能发展缓慢的现状。
真实度
从感知的角度看,真实度确实是第一评价指标。在这批数据进入训练系统前,是否能通过人类的视觉第一性检验,保证看起来真实?
对于真实度的劣势,肉眼所及的真实并不代表数据的真实效用,一味地追求图片视觉的真实度可能并不具备实际可量化的意义。评价合成数据真实度的量化标准需要建立在合成数据集对于经过合成数据集训练的算法在真实数据集上的提升上。目前,在对合成数据真实度要求最高的自动驾驶行业,已经有Cruise、Nvidia、Waymo、Tesla等基于合成数据实实在在有效大幅提升算法在真实道路上表现的实例。当然,随着算法的提升,对于合成数据真实度的要求也会水涨船高。而生成式AI近期的不断突破又给了我们很好的增强合成数据真实度的切实方向。
场景的多样性
合成数据世界模型的构建,例如自动驾驶场景的构建。我们需要创建一个虚拟世界,并且模拟真实世界的运行,让合成数据如泉水般流淌出来。传统方式会基于人工算法建模来实现,比如传统合成数据生产商纯基于物理引擎的构建方式决定了场景构建的速度,整个物理世界需要3D资产工程师们手动搭建,一个建筑,一个路牌都需要手动放置,这也就制约了场景的构建速度,也极大限制了场景的多样性。而生成式AI如Diffusion Model、Nerf为合成数据的产线提供了以数据为中心,自动化建模的可能性。人工搭建的场景让合成数据的泛化性受到了极大的限制,毕竟我们希望训练的算法具有足够高的鲁棒性,能够直接在真实世界中有足够好的表现。显然,用人工搭建的方式无法覆盖真实世界中的每一个场景,为了创建足够覆盖真实世界的所有数据, 我们需要学习到真实世界的隐式表达,进而生产足够多样的场景。这必须依赖生成式AI。
生产效率
为了快速提供大批量、高泛化性的数据,云端大量并行生产是第一要义,用高算力支持数据的快速生产能让数据以真实世界中无法比拟的速度合成。
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章