较小模型，超高性能：DeBERTa和自然语言理解的未来

2023-05-26 19:05

大型语言模型（LLMs），如OpenAI的GPT、Google的Bard和Meta的LLaMA，推广了人工智能中自然语言处理的概念，并被开发出越来越多的商业应用。

尽管这些模型的生成能力引起了很多关注，但许多自然语言处理应用需要的是自然语言理解（NLU），而不是生成。

NLU被应用于聊天机器人和虚拟助手中，使它们能够理解用户的查询并引导对话流程。它还在搜索引擎中起着关键作用，可以根据用户的查询帮助检索相关信息。

医疗行业越来越多地采用NLU来从患者记录中提取信息，帮助医生做出更准确的诊断。

也许是因为某些备受瞩目的大型语言模型展示了广泛的能力，一些用户开始将它们用于NLU应用，但这可能会导致计算过度。

在本文中，我们将探讨较小的模型，如微软的DeBERTa等，是如何在NLU任务中实现惊人性能的。

https://ipu.dev/mLDgSt

超越基于文本的界面

近年来，自然语言处理驱动的系统在实用性方面取得了巨大的进展，然而，像聊天机器人和虚拟助手这样主要基于文本的界面也存在一些局限：

在处理复杂信息时，仅通过文本进行交流可能会存在一些挑战，例如医学诊断或金融建议，这些可能需要可视辅助工具，如示意图、图像、图表、地图等等。

另外，我们也很难通过文本传达情感和语气，这可能会导致曲解或误读，尤其是在客户服务应用中。

最后，还有认知超载的问题，一次性面对太多文本可能会导致用户感到困惑和沮丧。

为了解决这些问题，自然语言处理应用可以将其他形式的媒介，如图像、图表和地图，融入其用户界面（UI）/用户体验（UX）设计中。

在这个过程中，NLU模型起到关键作用，它们创建了这些设计所需的结构化数据格式。

例如，天气应用的聊天机器人界面可以结合图表和地图，从而更有效地传达信息。NLU模型可以从用户输入中提取相关信息，并将其转化为结构化格式。

较小模型的成本效益

像GPT-3/4和T5这样的大型复杂语言模型，并非总是这类任务中最高效的选择。虽然它们的设置相对简单，但通常需要大量的计算资源，这当然会带来高昂的费用。

使用像DeBERTa这样的较小模型可以在保持高准确性的同时实现显著的成本节约。在许多情况下，这些较小的模型甚至可以在特定任务上胜过较大的模型。

由于较小的模型在训练和使用时需要的计算资源较少，它们更加快速、更易于访问。这些模型的较小尺寸还使它们可以部署在较小的设备上，非常适合边缘计算和其他资源受限的环境。

DeBERTa

DeBERTa是一种颇为流行的自然语言理解架构，它是一种基于Transformer的模型，在各种自然语言理解任务中取得了出色的结果，包括问题回答、自然语言推理和情感分析。

DeBERTa是流行语言模型BERT的一个更高效的变种，专门设计用于自然语言理解任务。它打破了BERT的一些局限，例如无法建模长距离依赖关系和对嘈杂文本的鲁棒性不足。

DeBERTa在许多方面都优于BERT，并在自然语言理解的表现上超越了大多数更大且更新的语言模型。

DeBERTa成功的原因之一是其创新的架构，通过注意力因子和相对位置偏置等技术，它可以支持实现输入序列中更好的注意力。这有助于DeBERTa以较少的参数实现高准确性。

人们认为，在许多自然语言理解任务（如SQuAD）中，DeBERTa所采用的双向编码器明显优于GPT模型中使用的从左到右的解码器。[1]

在SuperGLUE等基准数据集上，DeBERTa还能在使用较少参数的情况下胜过GPT-3和T5等更大、更复杂的模型。

您可以使用由Graphcore IPU驱动的Paperspace Gradient Notebook，免费试用DeBERTa-Base推理。

https://ipu.dev/mLDgSt

[1] BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension – Mike Lewis et. Al

获取更多Graphcore资讯，阅读深度技术文章，并与其他创新者们一起交流，请至中国官网graphcore.cn，以及关注Graphcore微信、微博和知乎创新社区。

Graphcore中国官网

Graphcore官方微信

Graphcore微博创新社区

Graphcore知乎创新社区

点击阅读原文，查看英文blog。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq