Redian新闻
>
语言技术平台(LTP)推出 v4.2 版本!

语言技术平台(LTP)推出 v4.2 版本!

公众号新闻

MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
转载自 | 

‍语言技术平台(http://ltp.ai/)(Language Technology Platform, LTP)是哈工大社会计算与信息检索研究中心(HIT-SCIR)历时多年研发的一整套高效、高精度的中文自然语言处理开源基础技术平台。该平台集词法分析(分词、词性标注、命名实体识别)、句法分析(依存句法分析)和语义分析(语义角色标注、语义依存分析)等多项自然语言处理技术于一体。其中句法分析、语义分析等多项关键技术多次在CoNLL国际评测中获得了第1名。此外,平台还荣获了2010年中国中文信息学会科学技术一等奖、2016年黑龙江省科技进步一等奖。国内外众多研究单位和知名企业通过签署协议以及收费授权的方式使用该平台。

应广大用户对于推理速度的需求,哈工大SCIR博士生冯云龙同学在车万翔教授指导下,于近日对LTP进行了新一轮的升级,此次升级主要提升了分词等常用任务的推理速度、增加了平台的易用性等。LTP 4.2 (https://github.com/HIT-SCIR/ltp)更新内容如下:

  • [结构性变化] 将 LTP 拆分成 2 个部分,维护和训练更方便,结构更清晰

    • [Legacy 模型] 针对广大用户对于推理速度的需求,使用 Rust 重写了基于感知机的算法,准确率与 LTP v3 版本相当,速度则是 LTP v3 的 3.55 倍,开启多线程更可获得 17.17 倍的速度提升,但目前仅支持分词、词性、命名实体三大任务

    • [深度学习模型] 即基于 PyTorch 实现的深度学习模型,支持全部的6大任务(分词/词性/命名实体/语义角色/依存句法/语义依存)

  • [其他改进] 改进了模型训练方法

    • [共同] 提供了训练脚本和训练样例,使得用户能够更方便地使用私有的数据,自行训练个性化的模型

    • [深度学习模型] 采用 hydra 对训练过程进行配置,方便广大用户修改模型训练参数以及对 LTP 进行扩展(比如使用其他包中的 Module)

  • [其他变化] 分词、依存句法分析 (Eisner) 和语义依存分析 (Eisner) 任务的解码算法使用 Rust 实现,速度更快

  • [新特性] 模型上传至 Huggingface Hub(https://huggingface.co/LTP),支持自动下载,下载速度更快,并且支持用户自行上传自己训练的模型供LTP进行推理使用

  • [破坏性变更] 改用 Pipeline API 进行推理,方便后续进行更深入的性能优化(如SDP和SDPG很大一部分是重叠的,重用可以加快推理速度),使用说明参见Github快速使用部分(https://github.com/hit-scir/ltp)


性能测试

分词

选择 Jieba 分词、Pkuseg、Thulac等代表分词软件与 LTP 做性能比较。选择 MacOS 作为测试环境,根据第二届国际汉语分词测评发布的国际中文分词测评标准,对不同软件进行了速度和准确率测试。

在第二届国际汉语分词测评(http://sighan.cs.uchicago.edu/bakeoff2005/)中,共有四家单位提供的测试语料(Academia Sinica、 City University 、Peking University (PKU) 、Microsoft Research (MSR) ), 在评测提供的资源 icwb2-data 中包含了来自这四家单位的训练集(icwb2-data/training)、测试集(icwb2-data/testing), 以及根据各自分词标准而提供的相应测试集的标准答案(icwb2-data/gold)。在 icwb2-data/scripts 目录下含有对分词进行自动评分的脚本。

在统一测试环境下,对若干分词软件和 LTP 进行了测试,使用的模型为各分词软件自带模型。在 PKU 和 MSR 测试集评测结果如下:

分词工具

Speed (KB/s)

PKU (F1)

MSR (F1)

Jieba

982.49

81.8

81.3

Pkuseg

109.72

93.4

87.3

Thulac

48.13

94.0

87.9

Thulac[Fast]

1133.21

同上

同上

LTP 3(pyltp)

451.20

95.3

88.3

LTP legacy(1)

1603.63

95.2

87.7

LTP legacy(2)

2869.42

同上

同上

LTP legacy(4)

4949.38

同上

同上

LTP legacy(8)

6803.88

同上

同上

LTP legacy(16)

7745.16

同上

同上

注1:括号内为线程数量

注2:Jieba 分词的词表是在人民日报数据集上统计的

流水线

除了分词以外,还测试了 LTP 三个任务(分词、词性标注、命名实体识别)流水线的速度:

工具

Speed (KB/s)

LTP 3(pyltp)

153.10

LTP legacy(1)

508.74

LTP legacy(2)

899.25

LTP legacy(4)

1598.03

LTP legacy(8)

2267.48

LTP legacy(16)

2452.34

注:括号内为线程数量

测试环境如下:

  • Python 3.10

  • MacBook Pro (16-inch, 2019)

  • 处理器: 2.6 GHz 六核Intel Core i7

  • 内存: 16 GB 2667 MHz DDR4

注:速度数据在人民日报命名实体测试数据上获得,速度计算方式均为所有任务顺序执行的结果。

欢迎访问http://ltp.ai/(点击文末“阅读原文”进行跳转),获取平台的源代码、模型及更详细的介绍信息,敬请提出反馈意见。


技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向
(如:小张-哈工大-对话系统)
即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
职等你来|苹果金融发展计划(FDP)实习招聘开启!管理/金融/会计/经济学/数学专业友好!【筹款会】麻州参议员黎迪亚·爱德华斯(Lydia Edwards)生日筹款见面会年利达offer|康奈尔大学(LLM)斩获年利达律所全职offer![电脑] <汎用ヒト型決戦兵器> EVANGELION TEST TYPE-01<瞄准VR市场,京东方拟斥资290亿元投建LTPO显示产线TP-LINK 推出 Wi-Fi 6 信号中继器:AX3000 规格,售价约 500 元Linux 6.1有望成为年度LTS内核核版本Asahi Linux推出首个公开的Apple Silicon GPU驱动程序版本任妙玲卸任CCG东伽文化副总裁;耐克将启动Web3平台(广告狂人日报)NECLTA第十一届年会成功举行 NECLTA Annual Conference Held at Tufts Univ.在《毁灭战士》中应用二叉空间分割(BSP)是何等天才之举? | Linux 中国银欣推出米罗 12 HTPC 机箱:15.6L 体积,支持 ITX 主板​能让天津人放下煎饼馃子的,也就那碗捞(láo)面了!华盛顿西雅图地区最好的私立高中(排名前5)推荐TPUv4开放使用!谷歌新一代TPU性价比有多高?环球offer|乔治城大学(LLM)斩获律所全职offer!达尔优公布新款 A98 Pro 机械键盘:采用天空轴 V4,配备彩色显示屏加拿大发行新版一元硬币:为了纪念他!彩色双版本!可以这样获得!肥大、增生、化生、结节、息肉、囊肿、肿瘤的区别七牛云QRTC自研传输协议(QRTP)对音画质量的提升安卓开源项目(AOSP)现在兼容 RISC-V 了 | Linux 中国零嘴 - 烤鱿鱼宾州费城地区最好的私立高中(排名前5)推荐Costco的减价鸭(二十七)四十年惠台政策养了一群白眼狼三十万小时手术视频、一百二十万个术中时刻、近十亿帧手术画面,Theator打造AI手术平台【筹款会】麻州参议员黎迪亚·爱德华斯(Lydia Edwards)线下筹款见面会[摄影] 秀外慧中的七枚玉 Summicron 1:2/35 v4噩耗! 新冠魔王Deltacron杀回来了?! 北美惊现新版! 恐跟Delta一样致命 传播更快!国民党与土共,谁更配得上中国offer|康奈尔大学(LLM)斩获君合全职offer!创新生物技术平台Replay打破传统商业模式,种子轮融资5500万美元[掌设] 真的Ultra吗?苍岭风Apple Watch Ultra开箱体验「多语言图像描述」最强评估基准XM3600来了!涵盖36种语言对预训练语言模型中跨语言迁移影响因素的分析
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。