动态语言生成

科技工作者之家 2020-11-17

动态语言生成(dynamic language generation)是指计算机智能地用相关的语言知识库对有关问题和情况进行解释和说明。动态语言生成是一项跨学科的研究,涉及计算机对人类语言的认知、分析、理解及翻译多个领域。动态语言生成主要是通过语言知识库来达到目的。

简介动态语言生成(dynamic language generation)即计算机能对不同情景用不同语言进行释义和回答,这里不同语言有两种解释,分别是指语言知识库和不同的源语言。动态语言生成发展主要和自然语言处理、翻译和理解等多个领域有关。动态语言生成最终目的是使计算机像人类能用语言动态地进行信息交流。

语言知识库语言知识库的建设确实是最基本、最重要的应用基础研究。其中,涉及多语言知识的重新整理、发现、形式化、规范化等工作。这就为汉语与其他语言的翻译提供了最大的发展空间。语言知识库是自然语言处理系统的重要组成部分,可以从不同的角度对自然语言处理系统中的语言知识库进行分类。按知识表达形式可分两类。一类如词典和规则库等,其中的知识是显性表示的,采用形式化的结构(词典可采用关系数据库结构,规则可采用“条件—动作”产生式表示),便于自动处理程序应用, 但其罗列的知识会给自动处理带来歧解;另一类知识存在于语料库之中,每个语言单位的出现,其范畴、意义、用法都是确定的,不过作为语料库主体的语句都是线性的非结构化的文字序列,其中包含的语言知识都是隐性的语料加工的目的就是把隐性的知识显性化。词语切分将汉字串改造成词语串,词的知识便显性化了, 词性标注使得词类知识显性化,义项标注又使词义知识显性化。也可以从颗粒度的角度考察语言知识库,规则库中的知识的颗粒度大,通常描述词类与词类之间的关系,语料库的知识颗粒度小,反映具体的词语与词语之间的关系。至于建构一个具体的语言知识库,究竟要吸纳哪些语言知识,采用什么样的表达形式,则取决于应用目标。如果用于动态语言生成,则还需要配备多种语言对照的知识1。

有关技术自然语言处理语言是人类区别于其它动物的重要标志之一。人借助于自然语言交流思想,达到相互了解, 组成人类社会;人还借助于自然语言进行思维,认识事物的本质和规律,创造了人类的物质文明和精神文明。自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。因此,自然语言处理是与人机交互的领域有关的。在自然语言处理面临很多挑战,包括自然语言理解,因此,自然语言处理涉及人机交互的面积。在NLP诸多挑战涉及自然语言理解,即计算机源于人为或自然语言输入的意思,和其他涉及到自然语言生成。

现代NLP算法是基于机器学习,特别是统计机器学习。机器学习范式是不同于一般之前的尝试语言处理。语言处理任务的实现,通常涉及直接用手的大套规则编码。

许多不同类的机器学习算法已应用于自然语言处理任务。这些算法的输入是一大组从输入数据生成的“特征”。一些最早使用的算法,如决策树,产生硬的if-then规则类似于手写的规则,是再普通的系统体系。然而,越来越多的研究集中于统计模型,这使得基于附加实数值的权重,每个输入要素柔软,概率的决策。此类模型具有能够表达许多不同的可能的答案,而不是只有一个相对的确定性,产生更可靠的结果时,这种模型被包括作为较大系统的一个组成部分的优点。自然语言处理研究逐渐从词汇语义成分的语义转移,进一步的,叙事的理解。然而人类水平的自然语言处理,是一个人工智能完全问题。它是相当于解决中央的人工智能问题使计算机和人一样聪明,或强大的AI。自然语言处理的未来一般也因此密切结合人工智能发展。

自然语言理解自然语言理解是研究人类如何使用自身熟悉的本族语言与计算机进行信息交流,并探索人类自身的语言能力和思维活动的本质,是人工智能学科的一个重要分支。自然语言理解的研究内容大体上与自然语言处理相当,都可以归结为对自然语言的句子和篇章(话语)这两个层次上的分析和生成的研究,但前者更着重于对“理解”的探索。正如什么叫 “智能” 一样, 对于“理解” 这一术语也存在着各式各样的认识。然而在人工智能界, 人们普遍认为可以采用图灵试验来判断计算机是否“理解”了自然语言,具体的判据分述如下:问答。机器能正确摘取输入文本中的主要信息,并据此回答有关的问题;释义。机器能用不同的词语和句型来复述输入文本;文摘生成。机器有能力产生输入文本的摘要;翻译。机器具有把一种源语言的输入文本翻译成另一种指定的目标语言的能力。

本词条内容贡献者为:

王慧维 - 副研究员 - 西南大学

科技工作者之家

科技工作者之家APP是专注科技人才,知识分享与人才交流的服务平台。