2019第二届中国“AI+”创新创业大赛--自然语言处理技术创新大赛(以下简称“大赛”)将于2019年5月至11月举行。
自然语言处理作为人工智能技术中重要的一个研究领域,近年来得到了快速发展,新模型和新方法层出不穷。为了促进中文自然语言技术的发展,中国人工智能学会特此主办本次自然语言处理技术大赛。为从事中文自然语言处理研究的研究人员、产业界从业人员以及AI技术爱好者提供一个良好的沟通平台。
现将2019第二届中国“AI+”创新创业大赛--自然语言处理技术创新大赛的数据介绍如下:
(1)数据总体概况
数据共分为四部分:知识图谱数据、每个实体的百科页面内容、历史知识问答的开发集。
链接: https://pan.baidu.com/s/1ziSMMx9eeKl7TGJIvgiOPg 提取码: 9u6j
数据加密密码:报名成功后发送到负责人邮箱
(2)知识图谱数据
a. 历史概念树
历史概念树为手工构建,共678个概念节点,下图为“世界历史”概念的树状关系。详细的概念树见文件,共提供了OWL和txt两种格式的概念树存储方式。
数据地址:网盘/CAAI2019history_data/kg_info/history-tree.zip
b. 实体结构化信息
每一个实体的结构化信息为一条json数据,示例如下:
{
"entity_id":" 61872",
"entity_name": "武则天(中国武周时期女皇帝)",
"entity_url": " https://baike.baidu.com/item/%E6%AD%A6%E5%88%99%E5%A4%A9/61872",
"entity_sample_name": "武则天",
"view_number": 42939366,
"description": "武则天(624年-705年12月16日),本名珝,后改名曌(zhào),并州文水(今山西文水县东)人。中国历史上唯一的正统的女皇帝…",
"isa": "中国历史人物",
"tags": ["人物", "君主", "政治人物"],
"alias": ["武则天", "武媚", "武珝", "武后", "武媚娘"],
"relations": [
{"p": "信仰", "o": "佛教", "o_url": "https://baike.baidu.com/item/%E4%BD%9B%E6%95%99/163332", "o_id": "163332"}
],
"attributes": [
{"p": "逝世时间", "o": "705年12月16日"},
{"p": "退位时间", "o": "公元705年"},
{"p": "谥号", "o": "则天大圣皇帝→则天大圣皇后"}
]
}
各字段详见下表:
数据地址:网盘/CAAI2019history_data/kg_info/history-kg-all.zip
(3)实体百科页面
实体的百科页面内容为html格式(每个文件以实体id号命名),具体如下:
数据地址:数据地址:网盘/CAAI2019history_data/web_txt/
(4)历史知识问答的开发集
Key为‘问题’和‘答案’,示例如下:
{"问题": "拜占庭帝国灭亡的时间是________年。", "答案": "1453"}
一行一条json数据
数据地址:数据地址:网盘/CAAI2019history_data/历史知识问答开发集Json.zip