本发明公开了一种中文问题的语义分类方法,基于中文问题语义类别体系和中文问题多类分类模型,实现对中文问题语义类别的判断和提问焦点的识别;它由中文问题语义类别体系构造、中文问题的特征向量表示和基于统一损失的中文问题多类分类组成:中文问题语义类别体系构造了一个问题语义类别体系,包括问题所有语义类别的定义和判断方法,对问题分类的结果即为该体系中的一个类别;中文问题的特征向量通过选择问题的一些特征,将问题文本表示成分类模型可以识别的特征向量;基于统一损失的多类分类将输入的问题特征向量映射到问题语义类别体系中的一个类别.该体系能够覆盖所有收集到中文问题,可以覆盖事实性问题,实现的简单直观和分类的高准确率.
发明专利
CN200610041619.2
2006.01.10
CN1804829
2006-07-19
郑庆华 胡云华 孙霞 党海峰
西安交通大学
G06F17/27(2006.01)I,G,G06,G06F,G06F17
G06F17/27(2006.01)I,G,G06,G06F,G06F17,G06F17/27
1、一种中文问题的语义分类方法CQSC,其特征在于,基于中文问题语义类别体系和中文问题多类分类模型,实现对中文问题语义类别的判断和提问焦点的识别;它由中文问题语义类别体系构造、中文问题的特征向量表示和基于统一损失的中文问题多类分类三个部分组成:其中,中文问题语义类别体系构造确定了一个问题语义类别体系,该体系包括问题所有语义类别的定义和判断方法,CQSC对问题分类的结果即为该体系中的一个类别;中文问题的特征向量表示通过选择问题的一些特征,将问题文本表示成分类模型可以识别的特征向量;基于统一损失的多类分类将输入的问题特征向量映射到问题语义类别体系中的一个类别.