Redian新闻
>
CLUE社区最新神器!PromptCLUE:大规模多任务Prompt预训练中文开源模型

CLUE社区最新神器!PromptCLUE:大规模多任务Prompt预训练中文开源模型

公众号新闻



  新智元报道  

编辑:LRS 好困
【新智元导读】CLUE社区又发布了一个新神器PromptCLUE,中文NLP也实现了Train Once,Run Everywhere!

PromptCLUE支持几十个不同中文类型的任务,具有较好的零样本学习能力少样本学习能力
针对理解类任务,如分类、情感分析、抽取等,可以自定义标签体系;针对生成任务,可以进行采样自由生成。


千亿中文token上大规模预训练,亿级中文任务数据上完成训练,训练任务超过150+。

比base版平均任务提升7个点+;具有更好的理解、生成和抽取能力,并且支持文本改写、纠错、知识图谱问答。


promptCLUE实现了中文上的三大统一:统一模型框架,统一任务形式,统一应用方式

统一模型框架:采用Text-to-Text的生成式预训练模型进行统一建模。
统一任务形式:Prompt统一不同的NLP任务间的差异,转化为统一的text-to-text数据形式。
统一应用方式:对目标任务形成拿来即用的模型,下游应用时都可转化为统一的prompt自适应方式,进行zero-shot/few-shot测试。

项目地址: https://github.com/clue-ai/PromptCLUE
DEMO地址: www.CLUEbenchmarks.com/clueai.html

在线DEMO

效果对比:16类中文任务


任务类型
Base版
Large版
分数
63.47
70.5
5(+7.08)
参数
220M
770M
解任务(acc / 10类)


分类 classify
89.56
92.89
情感分析 
80.55
85.64
相似度计算
70.94
78.47
自然语言推理 
78.00
86.67
指代消解 
30.00
64.00
阅读理解 mrc
71.69
84.78
关键词提取 
41.44
47.78
信息抽取 ner
63.02
70.09
知识图谱问答 
-
53.11
中心词提取 
66.50
71.50
生成任务(rouge/ 6类)


翻译-英中/中英 
55.92
59.67
摘要 
31.71
34.48
问答 qa
21.18
27.05
文章/问题生成
35.86
39.87
改写
-
57.68
纠错
-
93.35


相关技术与训练过程


  1. 三大统一:统一模型框架(text-to-text),统一任务形式(prompt),统一应用方式(zero-shot/few-shot)。(T0)

  2. 大规模预训练:在t5-large版基础上,使用数百G中文语料,训练了100万步,累计训练了1.5万亿个中文字词级别token

  3. 大规模任务数据:使用了16种任务类型,数百种任务,累积亿级别任务数据

  4. 混合预训练:一方面将下游任务作为预训练语料,另一方面将下游任务和预训练语料一起训练,减少任务灾难遗忘以及缩短预训练和下游任务的距离,更好的适应下游任务(ExT5)

  5. 混合采样:针对众多数据量差异极大的任务,采用在每个训练batch内对所有的任务进行按照比例采样,根据任务的数据量进行平滑采样,并且同时限制任务数据量采样池的上限。平滑采样可以减少任务训练有偏危害,在每一batch内训练可以减少异质任务之间训练负迁移的情况(T5)

  6. 分阶段训练:一方面指在预训练分阶段,涉及训练序列长度的分阶段(128和512),加快预训练速度(Bert);另一方面,在下游训练分阶段, 涉及学习率和序列长度的变化以及递减式对下游任务的数据量限制,更好的适应下游的不同任务

  7. 增加语言模型的训练:参考t5.1.1, 除了使用Span Corrpution构建的方式进行无监督训练,同时在使用prefix LM的方式训练,增强生成任务的能力(LM adapted)

  8. 增加对模型的encoder以及decoder的训练:根据下游任务数据分别构建Data_text,Data_target预训练数据语料,是加入到预训练中,分别增强模型的encoder理解能力和 decoder的生成能力(见UIE)

  9. 重新构建模型中文字典:使用sentencepiece上在千亿token上学习并构建模型字典,更加符合中文语言习惯

License(许可证)


1)PromptCLUE-base可直接下载和使用;

2)PromptCLUE-large版的非商用License


使用方法


安装需要的项目和包
git clone https://github.com/huggingface/transformers.gitpip install ./transformerspip install sentencepiece

加载模型
from transformers import AutoTokenizer, AutoModelForSeq2SeqLMtokenizer = AutoTokenizer.from_pretrained("ClueAI/PromptCLUE-base")model = AutoModelForSeq2SeqLM.from_pretrained("ClueAI/PromptCLUE-base")

使用模型进行预测
import torchfrom transformers import AutoTokenizer# 修改colab笔记本设置为gpu,推理更快device = torch.device('cuda')model.to(device)def preprocess(text):return text.replace("\n", "_")def postprocess(text):return text.replace("_", "\n")def answer(text, sample=False, top_p=0.6):'''sample:是否抽样。生成任务,可以设置为True;top_p:0-1之间,生成的内容越多样、'''text = preprocess(text)encoding = tokenizer(text=[text], truncation=True, padding=True, max_length=768, return_tensors="pt").to(device)if not sample: # 不进行采样out = model.generate(**encoding, return_dict_in_generate=True, output_scores=False, max_length=128, num_beams=4, length_penalty=0.6)else: # 采样(生成)out = model.generate(**encoding, return_dict_in_generate=True, output_scores=False, max_length=128, do_sample=True, top_p=top_p)out_text = tokenizer.batch_decode(out["sequences"], skip_special_tokens=True)return postprocess(out_text[0])


支持的任务(部分)


意图分类, 新闻分类, 情感分析, 自然语言推理, 阅读理解, 阅读理解-自由式, 摘要, 翻译-中英, 翻译-英中, 通用信息抽取, 简历信息抽取, 医疗信息抽取电商客户需求分析, 医疗语义相似度, 问题生成, 指代消解, 关键词抽取, 情感倾向, 根据标题文章生成, 知识图谱问答, 相似句子生成/改写, 纠错, 中心词提取.....


使用自定义数据集进行训练-PyTorch实现


使用pCLUE数据集进行训练、预测和效果验证。


pCLUE基准上的效果


示例输入


新闻分类(classify)

Input:分类任务:折价率过低遭抛售基金泰和跌7.15%,证券时报记者 朱景锋本报讯 由于折价率在大盘封基中处于最低水平,基金泰和昨日遭到投资者大举抛售,跌幅达到7.15%,远超大盘。盘面显示,基金泰和随大盘高开,之后开始震荡走低,午后开始加速下行,几乎没有像样反弹。截至收盘时,在沪深300指数仅下跌2.56%的情况下,基金泰和收盘跌幅高达7.15%,在所有封基中跌幅最大,而昨日多数封基跌幅在2%左右。选项:财经,娱乐,时政,股票答案:
Model output:财经


意图分类(classify)

Input:意图分类:帮我定一个周日上海浦东的房间选项:闹钟,文学,酒店,艺术,体育,健康,天气,其他答案:

Model output:酒店


情感分析(classify)

Input:情感分析:这个看上去还可以,但其实我不喜欢选项:积极,消极答案:

Model output:消极


推理(generate)

Input:请推理出上下文的关系:前提:对不起事情就是这样。假设:事情就是这样,不需要道歉。选项:中立,蕴涵,矛盾答案:

Model output:矛盾


阅读理解(generate)

Input:阅读文章,给出答案:段落:港汇指数,全称港元实际汇兑指数(Effective Exchange Rate Index for the Hong Kong Dollar)是由香港政府统计处编制的一项指数,以反映港元与香港主要贸易伙伴之货币的名义有效汇率加权平均数的变动情况。加权比重是按1999年至2000年平均贸易模式所制定,但政府并未有公布详细的计算公式。旧港汇指数基准日为2000年1月1日,基数为100点。由2012年1月3日起,新系列港汇指数 (包括15种货币及以2010年1月 = 100) 已取代旧港汇指数系列。港汇指数的作用,主要是用于反映香港的货品及服务的价格相对于其主要贸易伙伴的变动,并通常被视作反映香港价格竞争力的指标。问题:港汇指数的加权比重如何制定?答案:

Model output:按1999年至2000年平均贸易模式所制定


阅读理解-自由式(generate)

Input:阅读以下对话并回答问题。男:今天怎么这么晚才来上班啊?女:昨天工作到很晚,而且我还感冒了。男:那你回去休息吧,我帮你请假。女:谢谢你。问题:女的怎么样?选项:正在工作,感冒了,在打电话,要出差。答案:

Model output:感冒了


摘要(generate)

Input:为下面的文章生成摘要:北京时间9月5日12时52分,四川甘孜藏族自治州泸定县发生6.8级地震。地震发生后,领导高度重视并作出重要指示,要求把抢救生命作为首要任务,全力救援受灾群众,最大限度减少人员伤亡答案:

Model output:四川甘孜发生6.8级地震


翻译-中英(generate)

Input:翻译成英文:议长去了台湾,中国人民很愤怒。答案:

Model output:The secretary went to Taiwan and the Chinese people were angry.


翻译-英中(generate)

Input:翻译成中文:This is a dialogue robot that can talk to people.答案:

Model output:这是一台可以与人交谈的对话机器人。


通用信息抽取(generate)

Input:信息抽取:据新华社电广东省清远市清城区政府昨日对外发布信息称,日前被实名举报涉嫌勒索企业、说“分分钟可以搞垮一间厂”的清城区环保局局长陈柏,已被免去清城区区委委员问题:机构名,人名,职位答案:

Model output:机构名:新华社,清城区政府,清城区环保局,清城区区委人名:陈柏职位:局长,区委委员


简历信息抽取(generate)

Input:阅读文本抽取关键信息:张玄武2000年出生中国国籍无境外居留权博士学历现任杭州线锁科技技术总监。问题:机构,人名,职位,籍贯,专业,国籍,学历,种族答案:

Model output:人名:张玄武职位:杭州线锁科技技术总监国籍:中国国籍学历:博士学历


医疗信息抽取(generate)

Input:从文本中抽取信息:我胃部不舒服,前几天去医院做B超,医生说我有胃炎问题:症状,检查,身体,疾病答案:

Model output:检查:B超身体:胃部


电商客户需求分析(classify)

Input:电商客户诉求分类:收到但不太合身,可以退换吗选项:买家咨询商品是否支持花呗付款,买家表示收藏关注店铺,买家咨询退换货规则,买家需要商品推荐答案:

Model output:买家咨询退换货规则


医疗语义相似度(classify)

Input:下面句子是否表示了相同的语义:文本1:糖尿病腿麻木怎么办?文本2:糖尿病怎样控制生活方式选项:相似,不相似答案:

Model output:不相似


问题生成(generate)

Input:问题生成:中新网2022年9月22日电 22日,商务部召开例行新闻发布会,商务部新闻发言人束珏婷表示,今年1-8月,中国实际使用外资1384亿美元,增长20.2%;其中,欧盟对华投资增长123.7%(含通过自由港投资数据)。这充分表明,包括欧盟在内的外国投资者持续看好中国市场,希望继续深化对华投资合作。答案:

Model output:1、商务部发言人束珏婷表示,中国去年1-8月实际使用外资1384亿美元,增长20.2%,其中欧盟对华投资增长多少?2、欧盟对华投资的增长是否达到预期?3、欧盟在对华投资合作方面取得什么样的成果?


指代消解(generate)

Input:指代消解:段落:少平跟润叶进了她二爸家的院子,润生走过来对他(代词)说:“我到宿舍找了你两回,你到哪里去了?”问题:代词“他”指代的是?答案:

Model output:少平

关键词抽取(generate)
Input:抽取关键词:当地时间21日,美国联邦储备委员会宣布加息75个基点,将联邦基金利率目标区间上调到3.00%至3.25%之间,符合市场预期。这是美联储今年以来第五次加息,也是连续第三次加息,创自1981年以来的最大密集加息幅度。关键词:

Model output:美联储,利率目标区间,加息,基点


情感倾向(classify)

文字中包含了怎样的情感:超可爱的帅哥,爱了。。。选项:厌恶,喜欢,开心,悲伤,惊讶,生气,害怕答案:

Model output:喜欢

技术交流和问题反馈



参考资料:
https://mp.weixin.qq.com/s/Ms8LzcvVhz4GasbVC3mvXA

点击阅读原文,进入在线DEMO!




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
​GENIUS: 根据草稿进行文本生成的预训练模型,可用于多种NLP任务的数据增强从另一角度分析多少日军是由共产党方面消灭的。NeurIPS 2022 | 准确建模多智能体系统,斯坦福提出隐空间多层图模型毛泽东社会主义工业管理的法规生命的轮回,妈妈重生了!(歌)细粒度语义理解超越CLIP!华为云与浙大联合发布多模态预训练模型LOUPE,无需人工标注,零样本迁移实现目标检测!吾爱最新神器,用完解放双手!乌军训练中的10个旅,将成为影响战局的力量全新的多模态预训练范式:微软提出GLIP统一了对象检测和短语定位任务直播课预告:多模态预训练大模型OmModel及视觉应用开发警察训练中被“锁喉”致死,洛城警方回应图片迟迟加载不了、一片马赛克?谷歌开源模型优先显示图像受关注部分大规模GNN如何学习?北邮最新《分布式图神经网络训练》综述,35页pdf阐述分布式GNN训练算法和系统TPAMI 2023 特刊征稿!大规模多模态学习!清华CodeGeeX项目原作解读:大规模多语言代码生成模型加速训练定制化BERT,ExtremeBERT工具包助力轻松快速预训练PromptCLUE:大规模多任务Prompt预训练中文开源模型Huge and Efficient! 一文了解大规模预训练模型高效训练技术规模多少算小市值?把大象装冰箱总共要几步?英伟达发布ProgPrompt,让语言模型给机器人安排计划VideoMAE:简单高效的视频自监督预训练新范式|NeurIPS 2022NeurIPS 2022 | AutoMTL:第一个自动化多任务学习编程框架!Awesome!多任务学习宝藏资料SPINE:高拓展性、用户友好的自动化日志解析新神器大规模预训练、可控文本生成方向,清华大学计算机系NLP实验室招聘博士后(长期有效)大规模、高性能,清华、聆心智能推出中文开放域对话预训练开源模型OPDDiffusion预训练成本降低6.5倍,微调硬件成本降低7倍!Colossal-AI完整开源方案低成本加速AIGC产业落地微信推出自研NLP大规模语言模型WeLM:零/少样本即可完成多种NLP任务,匹敌大其25倍的模型秘密训练中,美军“迷你潜艇”遭遇事故专注打无人机,土耳其推出GOKER多任务武器系统,使用仿制厄利孔炮气晕,美食没吃上,反被餐厅扣了250刀AI画画模型成本被打下来了!预训练成本直降85%,微调只需单张RTX 2070,这个国产开源项目又上新了WAIC 2022 | 澜舟科技创始人&CEO 周明:基于预训练语言模型的可控文本生成研究与应用老中开车,一言难尽!Prompt总结 | 从MLM预训任务到Prompt Learning原理解析与Zero-shot分类、NER简单实践
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。