自动标引

科技工作者之家 2020-11-17

自动标引(英语:Automatic Indexing)包括关键词自动提取(又称自动抽词标引)与自动赋词标引两种类型。关键词自动提取是一种识别有意义且具有代表性片段或词汇的自动化技术。1关键词自动提取在文本挖掘域被称为关键词抽取(英语:Keyword Extraction),在计算语言学领域通常着眼于术语自动识别(英语:Automatic Term Recognition),在信息检索领域,就是指自动标引。自动标引属于文本信息抽取的范畴。文本信息抽取是从文本数据中抽取人们关注的特定的信息。

作用由于关键词是表达文件主题意义的最小单位,因此大部分对非结构化文件的自动处理,如自动标引、自动文摘、自动分类、自动聚类、相关反馈、自动过滤、事件检测与跟踪、知识挖掘、信息可视化、概念检索、检索提示、关联知识分析、自动问答等,都必须先进行关键词提取的动作,再进行其他的处理。可以说,关键词提取是所有文件自动处理的基础与核心技术。目前大多文档都不具有关键词,同时手工标引费力费时且主观性较强, 因此关键词自动标引是一项值得研究的技术。

发展过程自动标引研究可以分为三个阶段: 从Luhn于1957年开始进行自动标引后开始,到目前为止,自动标引研究经历了50年的发展历程。一直到20世纪90年代初,关于关键词自动提取的研究一直就没有停止过。 20世纪90年代初到90年代末,自动标引研究渐渐冷却,原因主要包括:全文索引逐渐被人采用,并且基本上能满足用户需要;传统的自动标引方法的效率到了极限;网络兴起之初的冲击与信息需求环境的改变。20世纪90年代末一直到现在,关键词自动提取的研究逐渐升温,尤其是最近几年,关键词自动提取研究进行的如火如荼,产生该现象的主要原因为:全文索引的功能越来越难以满足实际需求,用户需要更加精确的结果;另外互联网的很多服务,例如自动摘要,文档分类与聚类,文本分析,主题检索等都要依赖于关键词自动提取的结果,只有这样才能有希望从根本上提高信息服务质量。

代表方法根据见诸于报道的自动标引研究情况,结合自动标引研究领域的影响程度和自动标引方法的创新程度,归纳出1957~2007年五十年时间里比较有代表性的自动标引方法。

1957年,Luhn开始自动标引研究,首次将计算机技术引入文献标引领域,开创了以词频为特征的统计标引方法,其理论基础是Zipf定律,该方法具有一定的客观性和合理性,并且简单易行,在自动标引中占有重要地位

1958年,Luhn提出基于绝对频率加权法的自动标引方法; P.B.Baxendale提出从论题句和介词短语中自动提取关键词

1959年,Edmundson与Oswald提出基于相对频率加权法的自动标引方法

1960年,Maron & Kuhns提出基于相关概率的赋词标引方法

1969年,H.P.Edmundson提出了一些新的加权方法,如提示词(预示词)加权法、题名加权法、位置加权法,并探讨了不同加权法的最优组合问题

1970年,Lois L. Earl利用句法分析等语言学方法与词频统计方法相结合的方法来提取关键词

1973年,Salton等提出基于词区分值的自动标引方法

1975年,Salton等将VSM模型用于自动标引中

1983年,Dillon等提出一种基于概念的自动标引方法,研制了FASIT系统

1985年,Devadason提出基于深层结构标引方法

1990年,Deerwester & Dumais等提出潜在语义分析标引法

1993年,Silva & Milidiu提出基于相信函数模型的赋词标引方法

1995年,Cohen提出N-Gram分析法的自动标引方法

1997年,简立峰提出基于PAT树的关键词提取方法

1999年,Frank等人提出基于朴素贝叶斯(Naive Bayes,NB)的关键词提取方法;Turney 利用遗传算法和C4.5决策树算法等机器学习方法进行关键短语提取的研究

2001年,Anjewierden & Kabel提出基于本体的自动标引方法

2003年,Tomokiyo & Hurst提出了基于语言模型的关键词提取方法;Hulth利用Bagging算法进行了基于集成学习的关键词抽取

2004年,李素建提出基于最大熵模型的关键词提取方法2

2006年,张阔提出基于支持向量机自动标引模型

2007年,Ercan, G. & Cicekli, I提出基于词汇链的自动标引方法

典型应用汉语自动标引加权方法试验研究 1994年 史继红、赖茂生 北京大学信息管理系

自动标引“匹配标引法”原理 1994年 袁庆华 总后档案馆

语义矢量空间模式 (SVSM)及其试验评价——自然语言处理与文献自动标引 1996年 Geoffrey Z. Liu 美国加利福尼亚州圣何塞州立大学图书情报学院

文书档案主题自动标引系统的设计与实践 1996年 兰生柱、尹秀兰等 解放军档案馆

统计方法结合受限自然语言理解技术用模糊方法抽取关键词 1998年 何新贵、彭甫阳 北京系统工程研究所

主题转译标引技术 1998年 陈光华 台湾大学图书馆和信息科学系

对规范文本篇章结构 1998年 单永明 山西大学计算机系

科技文献主题词的自动标引法 1998年 石国华 杭州大学

中文科技文献题内自动抽词标引系统 1998年 邵艳秋、刘挺等 黑龙江交通高等专科学校计算中心、哈尔滨工业大学计算机系

针对生物学文献 1999年 王永成、韩客松等 上海交通大学

单汉字标引技术 1999年 胡盈盈 南京大学

基于《中国分类主题词表》的WWW科技信息资源自动标引设计方案 1999年 肖明 北京师范大学信息技术与管理学系

网络环境下档案主题自动标引的实现方法 1999年 熊志云 湖北大学人文学院档案系

公安文献全文著录、机助标引及检索系统(PWDBC) 2000年 江苏公安专科学校

计算机模糊检索在图书自动标引中的应用 2000年 许玲 曲阜师范大学图书馆

基于中国档案主题词表的自动标引控制研究 2002年 王兰成等 南京政治学院上海分院信息管理系

基于多词表的自动标引技术研究——新华社新闻稿自动标引的实验 2002年 查贵庭、侯汉清 南京农业大学信息管理系

字面相似聚类法辅助构造词族表、分面类表和自动标引 2002年 张琪玉 南京政治学院上海分院信息管理系

网页自动标引方案的优选及标引性能的测评 2002年 仲云云、侯汉清等 南京农业大学信息管理系

本词条内容贡献者为:

黄伦先 - 副教授 - 西南大学

科技工作者之家

科技工作者之家APP是专注科技人才,知识分享与人才交流的服务平台。