Redian新闻
>
较小模型,超高性能:DeBERTa和自然语言理解的未来

较小模型,超高性能:DeBERTa和自然语言理解的未来

公众号新闻

大型语言模型(LLMs),如OpenAI的GPT、Google的Bard和Meta的LLaMA,推广了人工智能中自然语言处理的概念,并被开发出越来越多的商业应用。


尽管这些模型的生成能力引起了很多关注,但许多自然语言处理应用需要的是自然语言理解(NLU),而不是生成。


NLU被应用于聊天机器人和虚拟助手中,使它们能够理解用户的查询并引导对话流程。它还在搜索引擎中起着关键作用,可以根据用户的查询帮助检索相关信息。


医疗行业越来越多地采用NLU来从患者记录中提取信息,帮助医生做出更准确的诊断。


也许是因为某些备受瞩目的大型语言模型展示了广泛的能力,一些用户开始将它们用于NLU应用,但这可能会导致计算过度。


在本文中,我们将探讨较小的模型,如微软的DeBERTa等,是如何在NLU任务中实现惊人性能的。


https://ipu.dev/mLDgSt


01

超越基于文本的界面


近年来,自然语言处理驱动的系统在实用性方面取得了巨大的进展,然而,像聊天机器人和虚拟助手这样主要基于文本的界面也存在一些局限:


在处理复杂信息时,仅通过文本进行交流可能会存在一些挑战,例如医学诊断或金融建议,这些可能需要可视辅助工具,如示意图、图像、图表、地图等等。


另外,我们也很难通过文本传达情感和语气,这可能会导致曲解或误读,尤其是在客户服务应用中。


最后,还有认知超载的问题,一次性面对太多文本可能会导致用户感到困惑和沮丧。


为了解决这些问题,自然语言处理应用可以将其他形式的媒介,如图像、图表和地图,融入其用户界面(UI)/用户体验(UX)设计中。


在这个过程中,NLU模型起到关键作用,它们创建了这些设计所需的结构化数据格式。


例如,天气应用的聊天机器人界面可以结合图表和地图,从而更有效地传达信息。NLU模型可以从用户输入中提取相关信息,并将其转化为结构化格式。


02

较小模型的成本效益


像GPT-3/4和T5这样的大型复杂语言模型,并非总是这类任务中最高效的选择。虽然它们的设置相对简单,但通常需要大量的计算资源,这当然会带来高昂的费用。


使用像DeBERTa这样的较小模型可以在保持高准确性的同时实现显著的成本节约。在许多情况下,这些较小的模型甚至可以在特定任务上胜过较大的模型。


由于较小的模型在训练和使用时需要的计算资源较少,它们更加快速、更易于访问。这些模型的较小尺寸还使它们可以部署在较小的设备上,非常适合边缘计算和其他资源受限的环境。


03

DeBERTa


DeBERTa是一种颇为流行的自然语言理解架构,它是一种基于Transformer的模型,在各种自然语言理解任务中取得了出色的结果,包括问题回答、自然语言推理和情感分析。


DeBERTa是流行语言模型BERT的一个更高效的变种,专门设计用于自然语言理解任务。它打破了BERT的一些局限,例如无法建模长距离依赖关系和对嘈杂文本的鲁棒性不足。


DeBERTa在许多方面都优于BERT,并在自然语言理解的表现上超越了大多数更大且更新的语言模型。


DeBERTa成功的原因之一是其创新的架构,通过注意力因子和相对位置偏置等技术,它可以支持实现输入序列中更好的注意力。这有助于DeBERTa以较少的参数实现高准确性。


人们认为,在许多自然语言理解任务(如SQuAD)中,DeBERTa所采用的双向编码器明显优于GPT模型中使用的从左到右的解码器。[1]


在SuperGLUE等基准数据集上,DeBERTa还能在使用较少参数的情况下胜过GPT-3和T5等更大、更复杂的模型。


您可以使用由Graphcore IPU驱动的Paperspace Gradient Notebook,免费试用DeBERTa-Base推理。


https://ipu.dev/mLDgSt


[1] BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension – Mike Lewis et. Al 





获取更多Graphcore资讯,阅读深度技术文章,并与其他创新者们一起交流,请至中国官网graphcore.cn,以及关注Graphcore微信、微博和知乎创新社区。

Graphcore中国官网

Graphcore官方微信

Graphcore微博创新社区

Graphcore知乎创新社区


点击阅读原文,查看英文blog。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
开启报名丨第二十届自然语言处理青年学者研讨会全日程公开碾压ChatGPT?Meta开源多语言大模型,可识别4000多种语言、错误率仅为OpenAI产品的一半给唐歌----要做扛牛的女汉子第四范式开源强化学习研究通用框架,支持单智能体、多智能体训练,还可训练自然语言任务!训练速度提升17%教科书级数据is All you Need: 1.3B小模型逆袭大模型的秘密PackedBert:如何用打包的方式加速Transformer的自然语言处理任务对话 APUS 李涛:全面转型做 AI,蒸馏法训练大模型,沉淀中小模型佐治亚理工提出polyBERT化学语言模型,促进聚合物空间高通量筛选替身和反派(小小说)ACL 2023 | GLUE-X:基于分布外泛化的自然语言理解模型测试集网易数帆低代码开发平台升级:加入智能大模型,可用自然语言描述快速开发应用叫板ChatGPT?Stability AI 开源语言大模型 StableLM,参数仅为GPT-3百分之四,却能实现超高性能教科书级数据is all you need:1.3B小模型逆袭大模型的秘密蒸馏也能Step-by-Step:新方法让小模型也能媲美2000倍体量大模型微软也搞起了开源小模型!利用OpenAI的ChatGPT和GPT-4 训练,实力碾压当前最强开源模型《魅羽活佛》第313章 出海找女婿全新中文大模型多任务基准CMMLU:评估中文多任务语言理解能力大模型时代,解析周志华教授的「学件」思想:小模型也可做大事Love is Coming in Spring and Love\'s Enduring Promise/Serendipit讲座预告 | 软件工程学院博学论坛第十五期:自然语言处理与大型语言模型的挑战与探索ACL 2023|大模型时代,自然语言领域还有什么学术增长点?包邮送6本!NLP与ChatGPT的碰撞:大模型和小模型联合发力对话蓝湖任洋辉:从GUI到LUI,自然语言交互将重塑软件学习生成式大语言模型,东北大学自然语言处理实验室有一堂课AI打LeetCode周赛进入前10%!秘诀:自然语言编程QUERT:基于旅行搜索领域Query理解的预训练语言模型不到45万拥有市中心精品住宅!未来天车直通,超高性价比,自住投资两相宜!面向大模型训练,腾讯发布高性能计算集群:整体性能提升3倍北极九章CEO刘沂鑫:从自然语言一步直达数据洞察——数据驱动增长的新范式|量子位·视点分享回顾华为在手机上,率先实现本地端自然语言搜图功能LLM推理提速2.8倍,CMU清华姚班校友提出「投机式推理」引擎SpecInfer,小模型撬动大模型高效推理Meta 开源多语言大模型,可识别 4000 多种语言、错误率仅为 OpenAI 产品的一半长篇小说:九针 (30)放弃欧洲,不挤新疆,这个超高性价比的冷门小国一次包揽自然秘境与浪漫小镇,还有浓厚历史人文与各路异国美食AAAI 2023 Oral | 字节提出非对称图像重采样模型,JPEG、WebP上抗压缩性能领先SOTA
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。