LTP 4.0!单模型完成6项自然语言处理任务

科技工作者之家 2020-06-21

来源:PaperWeekly

wt_a52362020022142735_7ab043.jpg

背景
语言技术平台(Language Technology Platform, LTP)是哈工大社会计算与信息检索研究中心(HIT-SCIR)历时多年研发的一整套高效、高精度的中文自然语言处理开源基础技术平台。
该平台集词法分析(分词、词性标注、命名实体识别)、句法分析(依存句法分析)和语义分析(语义角色标注、语义依存分析)等多项自然语言处理技术于一体。其中句法分析、语义分析等多项关键技术多次在CoNLL国际评测中获得了第1名。此外,平台还荣获了2010年中国中文信息学会科学技术一等奖、2016年黑龙江省科技进步一等奖。 
目前,LTP已被包括清华大学、北京大学、CMU等国内外众多大学及科研机构在内的600余家研究单位签署协议使用。同时,向百度、腾讯、华为、讯飞等多家知名公司收费授权。
GitHub的星标达2500余个,Fork数750余个。有效解决了自然语言处理技术入行门槛高,准确率、效率偏低,缺少共享数据和程序资源,重复开发现象严重,结果可视化差,错误分析困难,较难真正支持各类应用研究等众多问题。

wt_a42302020622142735_7cb4df.jpg

特色
哈工大SCIR本科生冯云龙等同学在车万翔教授指导下,于近日对LTP进行了新一轮的全面升级,并推出了LTP 4.0版本。此次升级的主要改进为: 

基于多任务学习框架进行统一学习,使得全部六项任务可以共享语义信息,达到了知识迁移的效果。既有效提升了系统的运行效率,又极大缩小了模型的占用空间 

基于预训练模型进行统一的表示 ,有效提升了各项任务的准确率 

基于教师退火模型蒸馏出单一的多任务模型,进一步提高了系统的准确率 

基于PyTorch框架开发,提供了原生的Python调用接口,通过pip包管理系统一键安装,极大提高了系统的易用性

wt_a12302200622142735_7e9476.jpg

性能
下表列出了新旧版LTP在精度、效率和模型大小方面的对比:

wt_a62322020062142736_829b9c.jpg

为了模型的小巧易用,本次发布的版本基于哈工大讯飞联合实验室发布的中文 ELECTRA Small 预训练模型。后续将陆续发布基于不同预训练模型的版本,从而为用户提供更多准确率和效率平衡点的选择。 
测试环境如下: 

Python 3.7 

LTP 4.0 Batch Size = 1 

CentOS 3.10.0-1062.9.1.el7.x86_64 

Intel(R) Xeon(R) CPU E5-2640 v4 @ 2.40GHz 

备注:速度数据在人民日报命名实体测试数据上获得,速度计算方式均为所有任务顺序执行的结果。另外,语义角色标注与语义依存新旧版采用的语料不相同,因此无法直接比较(新版语义依存使用SemEval 2016语料,语义角色标注使用CTB语料)。

wt_a82312020062242736_85ed17.jpg

使用
新版LTP采用原生Python实现,仅需运行 pip install ltp 即可安装使用。调用方式:
from ltp import LTP
ltp = LTP() # 默认自动下载并加载 Small 模型
segment, hidden = ltp.seg(["他叫汤姆去拿外衣。"])
pos = ltp.pos(hidden)
ner = ltp.ner(hidden)
srl = ltp.srl(hidden)
dep = ltp.dep(hidden)
sdp = ltp.sdp(hidden)

来源:paperweekly PaperWeekly

原文链接:https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247507051&idx=3&sn=411f289d91020fe02d5b38cf6bf4197b&chksm=96ea03eba19d8afde0a479091b058d428f961e2888c6867a53817c1c53134e93913458112768#rd

版权声明:除非特别注明,本站所载内容来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流、公益传播之目的。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。

电话:(010)86409582

邮箱:kejie@scimall.org.cn

机器学习 自然语言处理 LTP

推荐资讯