美国教授用2岁女儿训AI模型登Science!人类幼崽头戴相机训练全新AI
新智元报道
新智元报道
【新智元导读】为训练AI模型,纽约州立大学的一名教授Brenden Lake,竟让自己不到2岁女儿头戴相机收集数据!要知道,Meta训Llama 3直接用了15万亿个token,如果Lake真能让AI模型学习人类幼崽,从有限的输入中学习,那LLM的全球数据荒岂不是解决了?
绝了,为了训练AI模型,一位纽约州立大学的教授,竟然把类似GoPro的相机绑在了自己女儿头上!
虽然听起来不可思议,但这位教授的行为,其实是有据可循的。
要训练出LLM背后的复杂神经网络,需要海量数据。
目前我们训练LLM的过程,一定是最简洁、最高效的方式吗?
肯定不是!科学家们发现,蹒跚学步的人类儿童,大脑就像海绵吸水一样,能迅速形成一个连贯的世界观。
虽然LLM时有惊人的表现,但随着时间的推移,人类儿童会比模型更聪明、更有创造力!
儿童掌握语言的秘密
如何用更好的方法训练LLM?
科学家们苦思不得其解之时,人类幼崽让他们眼前一亮——
他们学习语言的方式,堪称是语言习得的大师。
咱们都知道这样的故事:把一个幼年的孩子扔进一个语言文化完全不同的国家,不出几个月,ta对于当地语言的掌握可能就接近了母语水平。
而大语言模型,就显得相形见绌了。
首先,它们太费数据了!
如今训模型的各大公司,快把全世界的数据给薅空了。因为LLM的学习,需要的是从网络和各个地方挖掘的天文数字级的文本。
要让它们掌握一门语言,需要喂给它们数万亿个单词。
Brenden Lake和参与这项研究的NYU学者
其次,兴师动众地砸了这么多数据进去,LLM也未必学得准确。
许多LLM的输出,是以一定准确度预测下一个单词。而这种准确度,越来越令人不安。
形成鲜明对比的是,要学会流利使用一门语言,儿童可不需要这么多经验。
纽约州立大学研究人类和AI的心理学家Brenden Lake,就盯上了这一点。
他决定,拿自己1岁9个月的女儿Luna做实验。
过去的11个月里,Lake每周都会让女儿戴一个小时的相机,以她的角度记录玩耍时的视频。
通过Luna相机拍摄的视频,Lake希望通过使用孩子接触到的相同数据,来训练模型。
把GoPro绑在蹒跚学步的女儿身上
虽然目前语言学家和儿童专家对于儿童究竟如何习得语言,并未达成一致,但Lake十分确信:使LLM更有效率的秘诀,就藏在儿童的学习模式里!
因此,Lake开展了这样一项研究项目:研究儿童在学习第一句话时所经历的刺激,以此提高训练LLM的效率。
为此,Lake的团队需要收集来自美国各地的25名儿童的视频和音频数据。
这就有了文章开头的一幕——他们把类似GoPro的相机绑在了这些孩子的头上,包括Lake的女儿Luna。
Lake解释道,他们的模型试图从孩子的角度,将视频片段和孩子的照顾者所说的话联系起来,方式类似于OpenAI的Clip模型将标注和图像联系起来。
Clip可以将图像作为输入,并根据图像-标注对的训练数据,输出一个描述性标注作为建议。
论文地址:https://openai.com/index/clip/
另外,Lake团队的模型还可以根据GoPro镜头的训练数据和照顾者的音频,将场景的图像作为输入,然后输出语言来描述这个场景。
而且,模型还可以将描述转换为以前在训练中看到的帧。
乍一听,是不是还挺简单的?就是让模型像人类儿童一样,学会将口语和在视频帧中所观察到的物体相匹配。
但具体执行起来,还会面临很多复杂的状况。
比如,孩子们并不一定总是看着被描述的物体或动作。
甚至还有更抽象的情况,比如我们给孩子牛奶,但牛奶是装在不透明的杯子里,这就会导致关联非常松散。
因而,Lake解释说:这个实验并不是想证明,我们是否可以训练模型将图像中的对象与相应的单词相匹配(OpenAI已经证明了这一点)。
相反,团队想要做的是,希望知道模型是否可以只用儿童可用的稀疏数据级(稀疏到难以置信的程度),就能真的学习识别物体。
可以看到,这和OpenAI、谷歌、Meta等大公司构建模型的思路完全相反。
要知道,Meta训练Llama 3,用了15万亿个token。
如果Lake团队的实验成功,或许全世界共同面临的LLM数据荒,就有解了——因为那时,训练LLM根本就不需要那么多的数据!
也就是说,新的思路是,让AI模型从有限的输入中学习,然后从我们看到的数据中推广出来。
我认为我们的关注点,不该局限在从越来越多的数据中训练越来越大的LLM。是的,你可以通过这种方式让LLM具有惊人的性能,但它已经离我们所知道的人类智能奇妙之处越来越远……
早期实验已经取得成功
早期的实验结果,已经证明了Lake团队的思路可能是对的。
今年2月,他们曾经用了61小时的视频片段训出一个神经网络,纪录一个幼儿的经历。
研究发现,模型能够将被试说出的各种单词和短语,与视频帧中捕获的体验联系起来——只要呈现要给单词或短语,模型就能回忆起相关图像。这篇论文已经发表于Science。
论文地址:https://www.science.org/doi/10.1126/science.adi1374
Lake表示,最令人惊喜的是,模型竟然能够概括出未训练的图像中的对象名称!
当然,准确性未必很好。但模型本来也只是为了验证一个概念而已。
项目尚未完成,因为模型还没有学到一个儿童会知道的一切。
毕竟,它只有60小时左右的带标注的演讲,这仅仅是一个儿童在两年内所习得经验的百分之一。而团队还需要更多的数据,才能搞清什么是可学习的。
而且Lake也承认,第一个模型使用的方法还是有局限性——
仅分析与照顾者话语相关的视频片段,仅仅是镜头以每秒5帧的速度转化为图像,只凭这些,AI并没有真正学会什么是动词,什么是抽象词,它获得的仅仅是关于世界样子的静态切片。
因为它对之前发生了什么、之后发生了什么、谈话背景都一无所知,所以很难学习什么是「走」「跑」「跳」。
但以后,随着建模视频背后的技术越来越成熟,Lake相信团队会构建更有效的模型。
如果我们能够建立一个真正开始习得语言的模型,它就会为理解人类的学习和发展开辟重要的应用程序,或许能帮我们理解发育障碍,或儿童学习语言的情况。
最终,这样的模型还可以用来测试数百万种不同的语言治疗法。
话说回来,孩子究竟是如何通过自己的眼睛和耳朵,扎实地掌握一门语言的呢?
让我们仔细看看Lake团队发在Science上的这篇文章。
将单词和实物、视觉图像联系起来
人类儿童如何褪去对这个世界的懵懂无知,习得知识?这个「黑箱」的奥秘,不仅吸引着教育学家们的不断求索,也是困于我们每个人心底关于个体智慧来处的追问。
也时常有网友会在网上分享出,那些「忘记喝孟婆汤」的人类幼崽故事。
关于谜一样的幼年时期,那是我们很难说清也难以回返的神秘之地,是一种「乡愁」。就像金草叶写下的」不要离开。不要带走那个美丽的世界。在我长大之后,也请留在我身边。
幼儿究竟是如何将新单词和特定的物体,或视觉概念联系起来的?
比如,听到「球」这个词时,儿童是如何想到有弹性的圆形物体的?
为此,Lake的团队给一个儿童戴上了头戴式摄像机,追踪了ta从6到25个月期间的成长过程,记录了一个61小时的视觉语言数据流。
在这个儿童1.5年的剪辑数据集(包括60万个视频帧和37500条转录话语配对)上,研究者训练出了一个模型,即儿童视角对比学习模型CVCL。
这个模型实例化了跨情景的联想学习形式,确定了单词和可能的视觉指示物之间的映射。
评估习得的词义映射
泛化新的视觉范例
多模态一致性很好
微信扫码关注该文公众号作者