较小模型,超高性能:DeBERTa和自然语言理解的未来
大型语言模型(LLMs),如OpenAI的GPT、Google的Bard和Meta的LLaMA,推广了人工智能中自然语言处理的概念,并被开发出越来越多的商业应用。
尽管这些模型的生成能力引起了很多关注,但许多自然语言处理应用需要的是自然语言理解(NLU),而不是生成。
NLU被应用于聊天机器人和虚拟助手中,使它们能够理解用户的查询并引导对话流程。它还在搜索引擎中起着关键作用,可以根据用户的查询帮助检索相关信息。
医疗行业越来越多地采用NLU来从患者记录中提取信息,帮助医生做出更准确的诊断。
也许是因为某些备受瞩目的大型语言模型展示了广泛的能力,一些用户开始将它们用于NLU应用,但这可能会导致计算过度。
在本文中,我们将探讨较小的模型,如微软的DeBERTa等,是如何在NLU任务中实现惊人性能的。
https://ipu.dev/mLDgSt
近年来,自然语言处理驱动的系统在实用性方面取得了巨大的进展,然而,像聊天机器人和虚拟助手这样主要基于文本的界面也存在一些局限:
在处理复杂信息时,仅通过文本进行交流可能会存在一些挑战,例如医学诊断或金融建议,这些可能需要可视辅助工具,如示意图、图像、图表、地图等等。
另外,我们也很难通过文本传达情感和语气,这可能会导致曲解或误读,尤其是在客户服务应用中。
最后,还有认知超载的问题,一次性面对太多文本可能会导致用户感到困惑和沮丧。
为了解决这些问题,自然语言处理应用可以将其他形式的媒介,如图像、图表和地图,融入其用户界面(UI)/用户体验(UX)设计中。
在这个过程中,NLU模型起到关键作用,它们创建了这些设计所需的结构化数据格式。
例如,天气应用的聊天机器人界面可以结合图表和地图,从而更有效地传达信息。NLU模型可以从用户输入中提取相关信息,并将其转化为结构化格式。
像GPT-3/4和T5这样的大型复杂语言模型,并非总是这类任务中最高效的选择。虽然它们的设置相对简单,但通常需要大量的计算资源,这当然会带来高昂的费用。
使用像DeBERTa这样的较小模型可以在保持高准确性的同时实现显著的成本节约。在许多情况下,这些较小的模型甚至可以在特定任务上胜过较大的模型。
由于较小的模型在训练和使用时需要的计算资源较少,它们更加快速、更易于访问。这些模型的较小尺寸还使它们可以部署在较小的设备上,非常适合边缘计算和其他资源受限的环境。
DeBERTa是一种颇为流行的自然语言理解架构,它是一种基于Transformer的模型,在各种自然语言理解任务中取得了出色的结果,包括问题回答、自然语言推理和情感分析。
DeBERTa是流行语言模型BERT的一个更高效的变种,专门设计用于自然语言理解任务。它打破了BERT的一些局限,例如无法建模长距离依赖关系和对嘈杂文本的鲁棒性不足。
DeBERTa在许多方面都优于BERT,并在自然语言理解的表现上超越了大多数更大且更新的语言模型。
DeBERTa成功的原因之一是其创新的架构,通过注意力因子和相对位置偏置等技术,它可以支持实现输入序列中更好的注意力。这有助于DeBERTa以较少的参数实现高准确性。
人们认为,在许多自然语言理解任务(如SQuAD)中,DeBERTa所采用的双向编码器明显优于GPT模型中使用的从左到右的解码器。[1]
在SuperGLUE等基准数据集上,DeBERTa还能在使用较少参数的情况下胜过GPT-3和T5等更大、更复杂的模型。
您可以使用由Graphcore IPU驱动的Paperspace Gradient Notebook,免费试用DeBERTa-Base推理。
https://ipu.dev/mLDgSt
[1] BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension – Mike Lewis et. Al
获取更多Graphcore资讯,阅读深度技术文章,并与其他创新者们一起交流,请至中国官网graphcore.cn,以及关注Graphcore微信、微博和知乎创新社区。
Graphcore中国官网
Graphcore官方微信
Graphcore微博创新社区
Graphcore知乎创新社区
点击阅读原文,查看英文blog。
微信扫码关注该文公众号作者