利用人工智能技术挖掘高层次创新人才——以专利数据为例

科技工作者之家 2020-08-20

来源: 科情智库    

研究对象与研究背景

专利数据作为数据挖掘的数据源具有贴近产业、基于技术领域分类、代表技术创新前沿等独特优势。人才挖掘是数据挖掘业务的一个分支,也是集统计学、机器学习、数据库、人工智能等多学科融合的课题。本研究以专利数据为分析对象,将人工智能技术应用于人才挖掘过程。

01数据与方法

人工智能的机器学习和自然语言处理技术与专利文本数据挖掘相结合既具有必要性也具有必然性。使用人工智能技术对专利数据进行挖掘的优势可以归结为以下四个方面:

1)运用机器学习技术,能够降低数据加工、标注的人工成本,高效处理专利文本数据,并能够大幅降低目标专利漏检的可能性。

2)运用自然语言处理技术,能够高效获得特定领域创新人才,并解决专利IPC分类与行业不完全吻合的问题。

3)机器学习和自然语言处理技术相结合,能够实现机器自动评价、将相近领域自动归类、知识推理构建创新人才竞争合作关系网络等,深入挖掘数据背后的潜在关系。

4)专利数据的数量和质量能够满足利用人工智能进行挖掘的基本条件,并有充足的数据来验证创新人才挖掘各环节中人工智能模型的性能。

本文中所述从专利挖掘创新人才的过程中,人工智能技术主要应用于以下几个方面:

一是利用自然语言处理中的词向量技术来扩充检索领域专家相关数据的关键词,以保证所获得数据的覆盖程度;

二是利用搜索排序算法替代传统的h指数,以抵消或降低在人才创新能力评价过程中由于自引用产生的引用得分,并提高被得分文献引用而产生的引用得分;

三是通过编辑距离技术,解决文献中的笔误纠正和同一实体不同表述的标准化问题;

四是利用特征工程技术和机器学习的方法,解决前述创新人才的技术领域分类问题。

02结构与挖掘结果讨论

对创新人才的挖掘有三个步骤:收集相关专利文本、建立创新人才领域判断模型、评价专利与挖掘创新人才。

为进一步检验利用人工智能技术挖掘创新人才的有效性,本研究中对以从专利数据中挖掘人工智能领域、脑科学与神经科学领域的创新人才为例,应用所提出方法进行创新人才的挖掘,并对挖掘结果进行了分析。

为更好地找出各国在人工智能领域、脑科学与神经科学领域研发创新中的侧重点,本研究中利用人工智能技术中的自然语言处理理解技术对论文摘要进行语义向量化,并利用机器学习的方法对专利进行分类。IPC分类的优势在于可以灵活地制定更贴近产业、实际应用的分类方法,并且通过机器学习模型的分类过程是全自动的。

为获得高层次的创新人才,首先对中文专利和英文专利质量进行评价;再将评价完的专利按照<申请人(即工作单位), 人才>的维度进行聚合,通过计算获得的人才专利的均值来获得创新人才的得分。最后,再根据人才的创新能力得分由高到低进行排序,并按照需求挑选出相应人数的创新人才。对申请人(即发明人工作单位)表述不统一或人名表述不一的问题,通过利用人工智能技术算法,事先将不同表述的申请人进行了标准化处理。

通过统计数据能够宏观观测专利数据所体现的特定领域创新人才各国各细分领域占比及其专利评价,并获得创新人才列表。通过利用人工智能的技术手段,可以突破传统学科分类体系带来的局限,为人才打上更贴合产业的领域标签。此外还发现,实际进行创新人才挖掘、构建创新人才库的过程中,对专利、人才创新能力的评价通过用算法实现自动化计算后所呈现的结果会更加客观、贴近真实情况。

03结论

本研究讨论了一种融合人工智能技术和专利数据进行创新人才挖掘的解决方案。以专利数据为例,描述了半自动构建创新人才平台过程中遇到的实际问题以及如何运用人工智能、自然语言处理的技术解决这些问题。通过对挖掘结果的分析,验证了所提方法不仅能够帮助压缩挖掘创新人才的成本,还能够利用挖掘结果进行宏观分析,达到助力相关机构进行科研管理、技术转化的目的。

本研究创新地将自然语言处理中的词向量技术、人工智能中的搜索排序算法、编辑距离技术、特征工程技术、机器学习等多种人工智能技术有机结合,将其应用于人才挖掘过程,有效解决了传统数据挖掘技术中:(1)搜索关键词覆盖不全面;(2)人才领域判别脱离实际产业;(3)人才创新能力评价不准确;(4)用于验证挖掘手法效果的数据不够充足等问题。此外,本研究创新地以专利文本数据为例进行挖掘,进一步论证了机器学习和自然语言处理技术对专利文本数据进行数据挖掘有着其它技术不可比拟的优势,并解决了以往人才挖掘研究多侧重基础研究学术方面而忽视或无法实现对产业中的创新人才进行挖掘的问题。第三,本研究利用深度学习技术和机器学习模型判别专利所属领域及其细分方向、利用自然语言处理技术对人才进行归一化、利用搜索排序技术对专利和创新人才进行评价,论证了该方法具有能够突破传统学科分类体系的局限、为人才打上更贴合产业的领域标签的优势,能够有效助力产业和人才的精准匹配。


人工智能 机器学习 专利 自然语言处理

推荐资讯