Redian新闻
>
AdaSeq基础能力 | 30+NER数据汇总,涉及多行业、多模态命名实体识别数据集收集

AdaSeq基础能力 | 30+NER数据汇总,涉及多行业、多模态命名实体识别数据集收集

公众号新闻


作者:落叶(达摩院的和尚,招实习生,求联系,见下文)


简介

命名实体识别NER是NLP基础任务,一直以来受到学术界和业界的广泛关注,本文汇总了常见的中英文、多语言、多模态NER数据集介绍。相关数据详情可以访问链接:https://github.com/modelscope/AdaSeq/blob/master/docs/datasets.md

进NLP群—>加入NLP交流群

一、中文数据集

首先我们先介绍常用的中文NER数据集,语料来源包括新闻、电商、文娱、医疗、微博、论文文献等。

MSRA命名实体识别数据集

  • 简介:本数据集包括训练集(46364)、测试集(4365),实体类型包括地名(LOC)、人名(NAME)、组织名(ORG),数据源自新闻领域。
  • 语种:Chinese
  • "训练集/验证集/测试集"数量: 46364/-/4365
  • 实体类别数量:3
  • 论文:https://aclanthology.org/W06-0115.pdf
  • 下载地址:https://tianchi.aliyun.com/dataset/144307

简历命名实体识别数据集

  • 简介:本数据集包括训练集(3821)、验证集(463)、测试集(477),实体类型包括国籍(CONT)、教育背景(EDU)、地名(LOC)、人名(NAME)、组织名(ORG)、专业(PRO)、民族(RACE)、职称(TITLE),文本比较规范,实体识别模型效果通常F1 90%以上。
  • 语种:Chinese
  • "训练集/验证集/测试集"数量:3821/463/477
  • 实体类别数量:9
  • 论文:https://aclanthology.org/P18-1144.pdf
  • 下载地址:https://tianchi.aliyun.com/dataset/144345
  • Github: https://github.com/jiesutd/LatticeLSTM

weibo命名实体识别数据集

  • 简介:本数据集包括训练集(1350)、验证集(269)、测试集(270),实体类型包括地缘政治实体(GPE.NAM)、地名(LOC.NAM)、机构名(ORG.NAM)、人名(PER.NAM)及其对应的代指(以NOM为结尾),数据来自社交媒体平台,表达方式比较灵活。
  • 语种:Chinese
  • "训练集/验证集/测试集"数量: 1350/269/270
  • 实体类别数量:4
  • 论文:https://aclanthology.org/D15-1064.pdf
  • 下载地址:https://tianchi.aliyun.com/dataset/144312
  • Github: https://github.com/hltcoe/golden-horse

OntoNotes Release 4.0

  • 简介:OntoNotes Release 4.0 consists of 2.4 million words as follows: 300k words of Arabic newswire 250k words of Chinese newswire, 250k words of Chinese broadcast news, 150k words of Chinese broadcast conversation and 150k words of Chinese web text and 600k words of English newswire, 200k word of English broadcast news, 200k words of English broadcast conversation and 300k words of English web text.
  • 语种:English, Mandarin Chinese, Arabic, Chinese
  • "训练集/验证集/测试集"数量: 15724/4301/4346
  • 下载地址:https://catalog.ldc.upenn.edu/LDC2011T03

OntoNotes Release 5.0

  • 简介:OntoNotes Release 5.0 is the final release of the OntoNotes project, a collaborative effort between BBN Technologies, the University of Colorado, the University of Pennsylvania and the University of Southern Californias Information Sciences Institute. The goal of the project was to annotate a large corpus comprising various genres of text (news, conversational telephone speech, weblogs, usenet newsgroups, broadcast, talk shows) in three languages (English, Chinese, and Arabic) with structural information (syntax and predicate argument structure) and shallow semantics (word sense linked to an ontology and coreference).
  • 语种:English
  • "训练集/验证集/测试集"数量: 59924/8528/8262
  • 论文:https://aclanthology.org/W13-3516.pdf
  • 下载地址:https://catalog.ldc.upenn.edu/LDC2013T19

CLUENER2020 中文细粒度命名实体识别

  • 简介:本数据是在清华大学开源的文本分类数据集THUCTC基础上,选出部分数据进行细粒度命名实体标注,原数据来源于Sina News RSS.
  • 语种:Chinese
  • "训练集/验证集/测试集"数量:10748/1343/1345
  • 实体类别数量:10
  • 论文:https://arxiv.org/ftp/arxiv/papers/2001/2001.04351.pdf
  • 下载地址:https://tianchi.aliyun.com/dataset/144362
  • GitHub:https://github.com/CLUEbenchmark/CLUENER2020

人民日报NER数据集

  • 简介:本NER数据集由人民日报语料库1998版和2014版生成,包含了人名(PER)、地名(LOC)和机构名(ORG)3类常见的实体类型。
  • 语种:Chinese
  • 实体类别数量:3
  • 下载地址:https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/renMinRiBao

中文医学命名实体识别数据集CMeEE

  • 简介:中文医学命名实体识别CMeEE,全称为Chinese Medical Entity Extraction dataset,来自于知名的中文医学NLP评测基准CBLUE。数据集包含504种常见的儿科疾病、7,085种身体部位、12,907种临床表现、4,354种医疗程序等九大类医学实体,包含训练集15,000条,验证集5,000条和测试集数据3,000条。CMeEE包括两个版本:CMeEE和CMeEE-V2(在CMeEE基础上更新了部分标注错误)。请研究人员到CBLUE项目主页下载:https://tianchi.aliyun.com/dataset/95414
  • 语种:Chinese
  • "训练集/验证集/测试集"数量: 15000/5000/3000
  • 实体类别数量: 9
  • 论文:https://aclanthology.org/2022.acl-long.544/
  • 下载地址:https://tianchi.aliyun.com/dataset/144495
  • Github: https://github.com/CBLUEbenchmark/CBLUE

Yidu-S4K:医渡云结构化4K数据集

  • 简介:Yidu-S4K 数据集源自CCKS 2019 评测任务一,即“面向中文电子病历的命名实体识别”的数据集。
  • 语种:Chinese
  • "训练集/验证集/测试集"数量: 1000/-/379
  • 实体类别数量:6
  • 下载地址:https://tianchi.aliyun.com/dataset/144419

Youku NER Dataset / 文娱NER数据集

  • 简介:命名体识别(NER)是一项重要的自然语言处理任务,本数据集提供了文娱领域的NER开放数据集,包括了3大类、9小类实体类别。该数据集由阿里巴巴达摩院和新加坡科技设计大学联合提供。
  • 语种:Chinese
  • "训练集/验证集/测试集"数量: 8,001/1,000/1,001
  • 实体类别数量: 9
  • 论文:https://aclanthology.org/N19-1079.pdf
  • 下载地址:https://tianchi.aliyun.com/dataset/108771
  • Github: https://github.com/allanj/ner_incomplete_annotation

E-Commercial NER Dataset / 电商NER数据集

  • 简介:命名体识别(NER)是一项重要的自然语言处理任务,本数据集提供了电商领域的NER开放数据集,包括了4大类、9小类实体类别。该数据集由阿里巴巴达摩院和新加坡科技设计大学联合提供。
  • 语种:Chinese
  • "训练集/验证集/测试集"数量: 6,000/998/1,000
  • 实体类别数量: 9
  • 论文:https://aclanthology.org/N19-1079.pdf
  • 下载地址:https://tianchi.aliyun.com/dataset/108758
  • Github: https://github.com/allanj/ner_incomplete_annotation

Chinese-Literature-NER-RE-Dataset

  • 简介:A Discourse-Level Named Entity Recognition and Relation Extraction Dataset for Chinese Literature Text.
  • 语种:Chinese
  • 实体类别数量:7
  • 论文:https://arxiv.org/pdf/1711.07010.pdf
  • 下载地址:https://tianchi.aliyun.com/dataset/144431
  • GitHub:https://github.com/lancopku/Chinese-Literature-NER-RE-Dataset

二、英文+多语言数据集

接下来我们介绍常用的英文和其它语种NER数据集,包括多模态NER的数据:

conll2002命名实体识别数据集

  • 简介:CoNLL 2002和CoNLL 2003应该是NER开发者和研究人员常用的数据集了,分别是包含英语、俄语、西语、法语四种语言。每种语言的数据集涉及人名、地名、组织名和misc四类实体。
  • 语种:Spanish, Dutch
  • 实体类别数量:4
  • 论文:https://aclanthology.org/W02-2024.pdf
  • 下载地址:https://www.cnts.ua.ac.be/conll2002/ner/

conll2003命名实体识别数据集

  • 简介:同上。
  • 语种:English、German
  • 实体类别数量:4
  • 论文:https://aclanthology.org/W03-0419.pdf
  • 下载地址:https://www.clips.uantwerpen.be/conll2003/ner/

wnut16命名实体识别数据集

  • 简介:本数据集包括训练集(2394)、验证集(1000)、测试集(3850),实体类型包括company、facility、loc、movie、musicartist、other、person、product、sportsteam、tvshow。
  • 语种:English
  • "训练集/验证集/测试集"数量:2394/1000/3850
  • 实体类别数量: 10
  • 论文:https://aclanthology.org/W16-3919.pdf
  • 下载地址:https://tianchi.aliyun.com/dataset/144348

wnut17命名实体识别数据集

  • 简介:本数据集包括训练集(3394)、验证集(1009)、测试集(1287),实体类型包括corporation、creative-work、group、location、person、product。
  • 语种:English
  • "训练集/验证集/测试集"数量:3394/1009/1287
  • 实体类别数量:6
  • 论文:https://aclanthology.org/W17-4418.pdf
  • 下载地址:https://tianchi.aliyun.com/dataset/144349

conllpp命名实体识别数据集

  • 简介:本数据集包括训练集(14041)、验证集(3250)、测试集(3453),实体类型包括地点(LOC)、混合(MISC)、组织(ORG)、人名(PER)。conllpp数据集是conll数据集的修复版本。
  • 语种:English
  • "训练集/验证集/测试集"数量: 14041/3250/3453
  • 实体类别数量:4
  • 论文:https://aclanthology.org/D19-1519.pdf
  • 下载地址:https://tianchi.aliyun.com/dataset/144414
  • Github: https://github.com/ZihanWangKi/CrossWeigh

CrossNER命名实体识别数据集

  • 简介:CrossNER数据集是面向多个不同领域(文学、政治、音乐、科学、人工智能)的英文命名实体识别数据集,主要作为低资源NER的练兵场。
  • 语种:English
  • 论文:https://ojs.aaai.org/index.php/AAAI/article/view/17587/17394
  • 下载地址:https://tianchi.aliyun.com/dataset/144418
  • Github: https://github.com/zliucr/CrossNER

BioCreative V CDR task corpus

  • 简介:The BioCreative V CDR task corpus is manually annotated for chemicals, diseases and chemical-induced disease (CID) relations. It contains the titles and abstracts of 1500 PubMed articles and is split into equally sized train, validation and test sets.
  • 语种:English
  • "训练集/验证集/测试集"数量:4560/4581/4797
  • 实体类别数量:2
  • 论文:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4860626/
  • 下载地址:https://biocreative.bioinformatics.udel.edu/tasks/biocreative-v/track-3-cdr/

NCBI disease corpus

  • 简介:The NCBI disease corpus is fully annotated at the mention and concept level to serve as a research resource for the biomedical natural language processing community.
  • 语种:English
  • "训练集/验证集/测试集"数量:5424/923/940
  • 实体类别数量:1
  • 论文:https://pubmed.ncbi.nlm.nih.gov/24393765/
  • 下载地址:https://www.ncbi.nlm.nih.gov/CBBresearch/Dogan/DISEASE/

MIT-Movie命名实体识别数据集

  • 简介:The MIT Movie Corpus is a semantically tagged training and test corpus in BIO format in the movie domain.
  • 语种:English, Chinese
  • "训练集/验证集/测试集"数量:6816/1000/1953
  • 实体类别数量: 12
  • 论文:https://groups.csail.mit.edu/sls/publications/2013/Liu_ICASSP-2013.pdf
  • 下载地址:https://tianchi.aliyun.com/dataset/145106

MIT-Restaurant命名实体识别数据集

  • 简介:MIT Restaurant Corpus 是餐厅领域中 BIO 格式的实体识别语料库。
  • 语种:English, Chinese
  • "训练集/验证集/测试集"数量:6900/760/1521
  • 实体类别数量: 9
  • 论文:https://groups.csail.mit.edu/sls/publications/2013/Liu_ICASSP-2013.pdf
  • 下载地址:https://tianchi.aliyun.com/dataset/145105

ACE 2004 Multilingual Training Corpus

  • 简介:This corpus represents the complete set of English, Arabic, and Chinese training data for the 2004 Automatic Content Extraction (ACE) technology evaluation created by LDC with support from the ACE Program and additional assistance from the DARPA TIDES (Translingual Information Detection, Extraction and Summarization) Program. This data was previously distributed as an e-corpus (LDC2004E17) to participants in the 2004 ACE evaluation.
  • 语种:English,Arabic, and Chinese
  • 论文:http://www.lrec-conf.org/proceedings/lrec2004/pdf/5.pdf
  • 下载地址:https://catalog.ldc.upenn.edu/LDC2005T09

ACE 2005 Multilingual Training Corpus

  • 简介:ACE 2005 Multilingual Training Corpus was developed by the Linguistic Data Consortium (LDC) and contains approximately 1,800 files of mixed genre text in English, Arabic, and Chinese annotated for entities, relations, and events. This represents the complete set of training data in those languages for the 2005 Automatic Content Extraction (ACE) technology evaluation. The genres include newswire, broadcast news, broadcast conversation, weblog, discussion forums, and conversational telephone speech. The data was annotated by LDC with support from the ACE Program and additional assistance from LDC.
  • 语种:English,Arabic, and Chinese
  • 下载地址:https://catalog.ldc.upenn.edu/LDC2006T06

KBP2017命名实体识别数据集

  • 简介:The Entity Discovery and Linking (EDL) track aims to extract entity mentions from a source collection of textual documents in multiple languages, and link them to a reference knowledge base; an EDL system is also required to cluster mentions for those entities that don't have corresponding KB entries.
  • 语种:English
  • 实体类别数量: 5
  • 论文:https://tac.nist.gov/publications/2017/additional.papers/TAC2017.KBP_Entity_Discovery_and_Linking_overview.proceedings.pdf
  • 下载地址:https://catalog.ldc.upenn.edu/LDC2019T19
  • 任务官网:https://tac.nist.gov/2017/KBP/

JNLPBA生物命名体识别数据集

  • 简介:The BioNLP / JNLPBA Shared Task 2004 involves the identification and classification of technical terms referring to concepts of interest to biologists in the domain of molecular biology. The task was organized by GENIA Project based on the annotations of the GENIA Term corpus (version 3.02).
  • 语种:English
  • "训练集/验证集/测试集"数量: 2000/-/404
  • 实体类别数量: 5
  • 论文:https://dl.acm.org/doi/10.5555/1567594.1567610
  • 下载地址:https://tianchi.aliyun.com/dataset/144943

Few-NERD

  • 简介:Few-NERD是一个大规模,多粒度的人工标注命名实体识别(Named Entity Recognition, NER)数据集,包含了8个大类,66个小类,18万余个句子,49余万个实体。本数据集包括3个任务,分别为标准监督NER(Few-NERD (SUP)),跨大类Few-shot NER(Few-NERD (INTRA))和不跨大类的Few-shot NER (Few-NERD (INTER))。Few-NERD由清华大学和阿里巴巴的研究者构建而成。
  • 语种:English
  • "训练集/验证集/测试集"数量:131767/18824/37548
  • 实体类别数量: 8 / 66
  • 论文:https://aclanthology.org/2021.acl-long.248.pdf
  • 下载地址:https://tianchi.aliyun.com/dataset/102048
  • Github: https://github.com/thunlp/Few-NERD

Financial NER Dataset

  • 简介:The dataset is generated using CoNll2003 data and financial documents obtained from U.S. Security and Exchange Commission (SEC) filings.
  • 语种:English
  • "训练集/验证集/测试集"数量: (Document level) 5/-/3
  • 实体类别数量: 4
  • 论文:https://aclanthology.org/U15-1010/
  • 下载地址:https://tianchi.aliyun.com/dataset/145092

Broad Twitter Corpus (BTC)

  • 简介:The Broad Twitter Corpus is a named entity-annotated dataset of tweets, collected in order to capture temporal, spatial and social diversity. Its annotations have high agreement and quality, and it has about 12000 entity annotations, of types Person, Location and Organization.
  • 语种:English
  • "训练集/验证集/测试集"数量:6338/1001/2000
  • 实体类别数量:3
  • 论文:https://aclanthology.org/C16-1111.pdf
  • 下载地址:https://tianchi.aliyun.com/dataset/145001
  • Github: https://github.com/GateNLP/broad_twitter_corpus

Temporal Twitter Corpus (TTC)

  • 简介:It includes 12,000 tweets annotated for the named entity recognition task. The tweets are uniformly distributed over the years 2014-2019, with 2,000 tweets from each year. The goal is to have a temporally diverse corpus to account for data drift over time when building NER models.
  • 语种:English
  • "训练集/验证集/测试集"数量: 10000/500/1500
  • 实体类别数量: 3
  • 论文:https://aclanthology.org/2020.acl-main.680.pdf
  • 下载地址:https://tianchi.aliyun.com/dataset/144438
  • GitHub:https://github.com/shrutirij/temporal-twitter-corpus

Tweebank-NER

  • 简介:Social media data such as Twitter messages (“tweets”) pose a particular challenge to NLP systems because of their short, noisy, and colloquial nature. The Tweebank-NER is an English NER corpus based on Tweebank V2 (TB2).
  • 语种:English
  • "训练集/验证集/测试集"数量: 1,639/710/1,201
  • 实体类别数量:4
  • 论文:https://aclanthology.org/2022.lrec-1.780.pdf
  • 下载地址:https://tianchi.aliyun.com/dataset/145049
  • Github:https://github.com/mit-ccc/TweebankNLP

TweetNER7

  • 简介:TweetNER7 is a NER dataset on Twitter with 7 entity labels annotated over 11,382 tweets from September 2019 to August 2021.
  • 语种:English
  • 实体类别数量: 7
  • 论文:https://aclanthology.org/2022.aacl-main.25.pdf
  • 下载地址:https://tianchi.aliyun.com/dataset/145052
  • HuggingFace:https://huggingface.co/datasets/tner/tweetner7/tree/main/dataset

三、多模态NER数据集

接下来我们介绍常用多模态NER的数据:

Multimodal Twitter-15 NER Dataset

  • 简介:来自社交媒体领域的多模态NER数据集,内容来自推文及其图片。
  • 语种:English
  • "训练集/验证集/测试集"数量: 4000/1000/3257
  • 实体类别数量:4
  • 论文:https://ojs.aaai.org/index.php/AAAI/article/view/11962/11821
  • 下载地址:https://tianchi.aliyun.com/dataset/145058
  • GitHub:https://github.com/jinlanfu/NERmultimodal

Multimodal Twitter-17 NER Dataset

  • 简介:与上面类似,来自社交媒体领域的多模态NER数据集,内容来自推文及其图片。多模态NER的论文通常会在这两个数据集上进行实验。
  • 语种:English
  • "训练集/验证集/测试集"数量: 4000/1000/3257
  • 实体类别数量:4
  • 论文:https://aclanthology.org/2020.acl-main.306.pdf
  • 下载地址:https://github.com/jefferyYu/UMT
  • GitHub:https://github.com/jefferyYu/UMT

Multimodal SNAP NER Dataset

  • 简介:SNAP的多模态NER数据,实体类型分别是人名、地名、组织名和misc。
  • 语种:English
  • 实体类别数量:4
  • 论文:https://aclanthology.org/P18-1185.pdf
  • 下载地址:https://github.com/jefferyYu/UMT
  • GitHub:https://github.com/jefferyYu/UMT

WikiDiverse Dataset

  • 简介:是一个多模态实体识别和实体链接数据集。这一数据集是基于多个角度的考虑:首先,综合参考现有的实体链接数据集、分析图文匹配程度、实体消歧难度等信息,采用WikiNews的“图片-标题”对作为原始数据,将Wikipedia作为对应的知识图谱。其次,我们采集了体育、政治、娱乐、灾难、科技、犯罪、经济、教育、健康、天气主题的图文对,并进行了质量低下、色情、暴恐信息的清洗,对图片类型进行了归一化(因为部分图片为gif等格式),从而保证数据的高覆盖性和质量。最后,引入了众包标注平台进行数据标注,在此过程中设计了详细的标注规范,特别地,我们关注人物、组织、地点、国家、事件、作品(包含图书、画作等)、其他等多个实体类型。
  • 语种:English
  • "训练集/验证集/测试集"数量: 6312/755/757
  • 论文:https://aclanthology.org/2022.acl-long.328.pdf
  • 下载地址:https://tianchi.aliyun.com/dataset/145103
  • GitHub:https://github.com/wangxw5/wikidiverse

四、 多语言NER数据集

接下来我们介绍常用的多语种NER的数据:

MultiCoNER Dataset

  • 简介:MultiCoNER 是用于命名实体识别的大型多语言数据集(11 种语言)。它旨在代表 NER 中的一些当代挑战,包括低上下文场景(短文本和无大小写文本)、句法复杂的实体(如电影片名)和长尾实体分布。
  • 语种:Bangla、 Chinese、Dutch、English、Farsi、German、Hindi、Korean、Russian、Spanish、Turkish.
  • 实体类别数量:6
  • 论文:https://aclanthology.org/2022.coling-1.334/
  • 下载地址:https://tianchi.aliyun.com/dataset/145100
  • 任务官网:https://multiconer.github.io/multiconer_1/

命名实体识别数据集汇总列表

LanguageDatasetSize#TypesDescriptionPaperDownload
Chinesemsra46364/-/43653
Levowdamo/msra_ner
Chineseresume3821/463/4779
Zhang & Yangdamo/resume_ner
Chineseweibo1350/269/2704
Peng & Dredzedamo/weibo_ner
Chineseontonotes-v4-zh15724/4301/4346

-ldc/ontonotes-v4
Chinesecluener202010748/1343/134510
Xu et al., 2020github/cluener2020
Chinesepeople_dairy1998
3

github/ChineseNLPCorpus
Chinesepeople_dairy2014
3

baidu-pan passwrod:1fa3
Chinesecmeee15000/5000/3000
CMeEE dataset in CBLUE benchmarkZhang et al., 2022github/cblue
Chineseyidu-s4k


-openkg/yidu-s4k
Chineseecommerce


Jie et al., 2019github/ner_incomplete_annotation/ecommerce
Chinesedlner


Xu, et al.,2017github/dlner
Dutchconll2002-nl15796/2895/51964
Tjong Kim Sang, 2002
Englishwnut20162394/1000/3850
Noisy User-generated TextStrauss et al., 2016damo/wnut16
Englishwnut20173394/1009/1287

Derczynski et al., 2017damo/wnut17
Englishconll2003-en14041/3250/34534
Tjong Kim Sang & De Meulder, 2003
Englishconllpp14041/3250/34534corrected version of the conll03-en NER datasetWang et al., 2019damo/conllpp_ner
Englishontonotes-v5-en59924/8528/8262(TBD)

Pradhan et al., 2013ldc/ontonotes-v5
Englishai100/350/431

Liu et al., 2020damo/cross_ner
Englishliterature100/400/416

Liu et al., 2020damo/cross_ner
Englishmusic100/541/465

Liu et al., 2020damo/cross_ner
Englishpolitics200/541/651

Liu et al., 2020damo/cross_ner
Englishscience200/450/543

Liu et al., 2020damo/cross_ner
Englishbc5cdr4560/4581/4797

Li et al., 2016
Englishncbi5424/923/940

Doğan et al., 2014
Englishmit-movie6816/1000/1953(TBD)

Liu et al., 2013mit/movie
Englishmit-restaurant6900/760/1521

Liu et al., 2013mit/restaurant
Englishace2004-en
7nested nerDoddington et al., 2005ldc/ace04
Englishace2005-en
7nested ner-ldc/ace05
Englishkbp2017

nested ner--
Englishgenia

nested nerOhta et al., 2002
Englishfew-nerd131767/18824/375488 / 66a few-shot ner datasetDing et al., 2021
Englishwikigold


Balasuriya et al.,2009
Englishbionlp2014


Collier & Kim, 2004
Englishfin


Alvarado et al., 2015
Englishbtc6338/1001/20003
Derczynski et al., 2016
Englishttc


Rijhwani & Preot¸iuc-Pietrogithub/ttc
Englishtweebank


Jiang et al.,2022github/tweebank
Englishtweetner7


Ushio, et al., 2022huggingface/tweetner7
Germanconll2003-de12152/2866/30054
Tjong Kim Sang & De Meulder, 2003
Spanishconll2002-es8302/1919/15174
Tjong Kim Sang, 2002
Englishtwitter2015

multi-modalZhang et al., 2018
Englishsnap

multi-modalLu et al., 2018github/UMT
Englishtwitter2017

multi-modalYu et al., 2020github/UMT
Englishwiki-diverse

constructed from wiki-diverse (a multi-modal entity typing dataset)Wang et al., 2022github/wikidiverse
11 langsmulticoner2022-6dataset of SemEval 2022 Task 11

(English, Spanish, Dutch, Russian, Turkish, Korean, Farsi, German, Chinese, Hindi, and Bangla)Malmasi et al., 2022aws/multiconer



282 langswikiann-
silver-standard dataPan et al, 2017github/wikiann
9 langswikiner-
silver-standard dataNothman et al, 2013
9 langswikineural-
silver-standard dataTedeschi et al, 2021
10 langsmultinerd-
silver-standard dataTedeschi & Navigli. 2022

致谢

本列表由达摩院NLP团队和天池数据科学团队长期维护,相关数据可以通过序列理解统一框架AdaSeq进行模型训练。https://github.com/modelscope/AdaSeq/blob/master/README_zh.md



欢迎关注我的视频号~

进NLP群—>加入NLP交流群

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
美国言论自由标准《以美为准》早鸟报|北京毕业三年内大学生可申请保租房;小米开启年底裁员涉及多部门;近6成用户赞成马斯克从推特辞职......AAAI 2023 | 多模态对话的SPRING来了!无需标注就能做多模态问答预训练涉及多个区!墨尔本人出行将迎来大变化!但许多居民却提出了抗议。。。清华朱军团队开源UniDiffuser:首个基于Transformer的多模态扩散大模型还来得及!这8所还有ED2的Top 30大学还可以上车,附录取数据汇总AAAI 2023 Oral | 如何识别未知标签?多模态知识迁移框架实现新SOTAOFA-Chinese:中文多模态统一预训练模型2023美本早申数据汇总!中国学生拿Offer,太太太难了!美国入境档案--徐积锴张粹文李开复发布“英雄帖”:亲自筹组Project AI 2.0,广召大模型、多模态等顶级人才|甲子光年FlowSeq、mBART、BERT-fused、mRASP、mRASP2...你都掌握了吗?一文总结机器翻译必备经典模型(三)B站被曝内部裁员30%,涉及多部门、赔偿N+2;微念与李子柒达成和解,归还公司股权;茅台回应招聘收取120元考试费丨雷峰早报伯克利开源首个泊车场景下的高清数据集和预测模型,支持目标识别、轨迹预测多模数据库、“Serverless 化” | 开源数据库领域解读《王冠》第五季 黛安娜VS女王,谁的麻烦更大?AAAI 2023 | 如何识别未知标签?多模态知识迁移框架实现新SOTA重返佛罗伦萨- -晨多模态如何自监督?爱丁堡等最新「自监督多模态学习」综述:目标函数、数据对齐和模型架构AAAI 2023 | 浙大成像实验室创建ReLoBlur数据集及LBAG局部模糊感知门控网络惊爆!你用的卫生纸和不粘锅可能致癌,涉及多个澳洲品牌!文明延续话江湖谷歌推出多模态Vid2Seq,理解视频IQ在线,字幕君不会下线了|CVPR 2023券业重磅!经纪业务迎新规,涉及2.1亿投资者!强化客户身份识别,加强出租交易单元管理,有六大看点加强半导体基础能力建设 点亮半导体自立自强发展的“灯塔”使用 PowerFlex 在 Kubernetes 平台上部署 Microsoft SQL Server 大数据集群中文多模态对话数据集-TikTalk新加坡O水准考录取截分10年数据汇总,建议收藏!清华朱军团队开源UniDiffuser:首个基于Transformer的多模态扩散大模型!文图互生、改写全拿下!"𝙇𝙚𝙖𝙙 𝙏𝙝𝙚 𝘾𝙝𝙖𝙧𝙜𝙚"广告#创译挑战五步法,准确识别数据异常波动中纪委通报!涉及多位副省级官员Excel表格快速插入多行有多快,删除多行也能有多快!Seq2Seq、SeqGAN、Transformer…你都掌握了吗?一文总结文本生成必备经典模型(一)Chinese University Offers Course to Excel in Civil Service Exam
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。