第81期我来读文献 | 《语料库文体统计学方法与应用》第二阶段线上论坛答疑活动干货汇总

科技工作者之家 2021-05-21

第81期“我来读文献”活动第二阶段线上论坛于5月4日19:00举行。本期活动关注《语料库文体统计学方法与应用》一书,邀请了本书作者胡显耀教授同大家交流讨论。

 

一不小心错过活动?想了解更多内容?小编将为您倾情分享本次线上论坛的干货,欢迎阅读学习!



答疑和领读专家

胡显耀,西南大学教授,博士生导师。华东师范大学博士,北京外国语大学博士后。曾任英国索尔福德大学访问学者,加州大学洛杉矶分校富布赖特高级访问学者,英国兰卡斯特大学语言学和英语系助理研究员。研究领域:语料库翻译学、文体统计学、翻译认知机制、翻译教学、应用语言学和二语习得。已出版《现代汉语语料库翻译研究》(2008)、《高级文学翻译》(2009)、Corpus-based Studies of Translational Chinese in English-Chinese Translation(2015)和《基于语料库的汉英翻译语体研究》(2021)等著作。从事法律、财经、儿童文学和科普著作的翻译,已出版译著三部,发表译文数十万字。


思考题

1. 什么是语料库翻译学?其主要研究内容是什么?

胡显耀老师:王克非教授是国内语料库翻译学的创始人之一,因此我引用了他的定义。语料库翻译学是指“以语言理论和翻译理论为指导,以概率和统计为手段,以大规模双语真实语料为对象,采用语内对比与语际对比相结合的方法,对翻译现象进行历时或共时的描写和解释,探索翻译本质的一种翻译学研究方法”(王克非 2012:4)。这个定义把语料库翻译学的理论基础、方法、对象、途径和目标都一一明确了。


其主要研究内容包括:翻译共性、翻译规范、译者风格、应用翻译(机器辅助翻译等),其中翻译共性是语料库翻译学最重要的研究领域。


2. 什么是刑侦语言学?刑侦语言学主要有哪些研究方法?

胡显耀老师:刑侦语言学是指运用语言学方法进行证人和犯罪嫌疑人的语音、笔迹、言语风格辨别和法庭用语、警务人员用语分析等直接或间接刑事侦察手段。刑侦语言学是文体统计学最早的应用领域之一,与早期的作者辨别研究有密切的联系。主要领域包括:刑侦语音识别、刑侦发声学、刑侦语义分析、刑侦文体分析。主要的研究方法包括:语言风格分析、语料库文体统计学方法等。


3. 什么是数据挖掘?数据挖掘包括哪些基本步骤、主要任务和分析方法?

胡显耀老师:数据挖掘是指从大型数据库中自动发现有用信息的过程(陈封能等 2011: 2)。Fayyad et al.(1996a: 40)提出了数据库知识发现(KDD)这一名称,并将其定义“从数据中集中识别出有效的、新颖的、具有潜在用途的并最终可理解的模式的非平凡(non-trivial)过程。”而数据挖掘则是数据库知识发现的步骤之一,即利用计算机通过数据分析和挖掘算法从数据中提取特定的模式或模型。简单地讲,数据挖掘就是分析和提取数据的模式或趋势。数据挖掘是自然语言处理、数据库技术和统计学之间的交叉领域。本书关心的主要是语言或文本数据的挖掘。文本数据挖掘即对文本数据的文体统计学分析。


数据挖掘的主要任务包括:数据探索、预测建模、关联分析、聚类分析和异常检测等,采用的研究方法有描述统计、可视化、联机分析处理(OLAP)、分类、回归、关联分析、聚类分析、偏差检测、神经网络和决策树等。数据挖掘的方法对于大量文本数据的挖掘和分析具有重要的作用。


4. 如何看待语料库文体统计学在现代人文社会科学中的地位和作用?

胡显耀老师:现代人文社会科学的很多学科都需要以对语言数据的分析为基础,一方面是从数据分析中发现规律,另一方面也需要用数据分析来检验研究中的假设。很多人文社会科学学科,如语言学、文学、翻译学、社会学、人类学、教育学和历史学等,早已开始采用特定类型的语料库和数据分析方法。在网络和大数据时代,大规模语料库的出现和大量语言数据分析的需求使得语料库和统计学方法融入人文社会科学的趋势愈加明显。然而,我们应该看到,尽管语料库和统计分析方法的应用在这些学科中已初具规模,但仍然落后于时代的步伐。总体来看,人文社科领域对这些方法的了解和使用还比较零散,科学性或系统性还有待加强。


5. 本书对不同领域的研究案例进行了详细的分析,这些研究设计是否对您自己的研究有所帮助?如何在自己的领域中使用这种方法?

胡显耀老师:对我自己而言,我的主要研究领域是翻译学,语料库文体统计学的应用是非常有价值的。我过去的研究都是基于这种研究方法的。这是一个开发性的问题,我希望读者可以结合自己从事的学科和研究领域进行思考。不同的学科对于量化研究和语言数据分析的应用有不同的需求,我希望这本书介绍的方法能够帮助读者提高量化分析的科学性和系统性。


读者提问

1. 翻译共性中有一条“显化”,根据Pym的书Exploring Translation Theory中的介绍,即译文会比原文冗长。这种共性是通过什么样的方法来计算的呢?是指word count吗?

胡显耀老师:显化有很多指标,其中译文冗长是一个最常见的特征,通常用平均句长或平均段长来表示,及语料库中平均每句话的单词数。我在《语料库文体统计学方法与应用》一书中还列举了其他一些特征(5.1.2节),例如,增添解释语(cause、due to、lead to、because、therefore)、代词、连接词和其他选择性成分(that、which、help to)。


译文不仅比原文冗长,也比同一语言的原创文本冗长。我还在这本书里介绍了一些其他翻译共性,如简化、显化、规范化、译入语特征不足、原语干扰等。


2. 胡老师好,之前在阅读过的文献中看到过“language mining”一词,同样是对语言特点进行挖掘,感觉与数据挖掘领域中对文本的挖掘所指类似,您可以对“文本挖掘”进行进一步的说明吗?

胡显耀老师:文本挖掘(Text Mining)是指从大量文本数据中抽取未知的、可理解的和有用的信息和知识的过程。文体统计分析可被视为文本挖掘的一种特殊形式,文体分析主要对文本的语言特征或文体特征进行分析,而文本挖掘可以对文本的所有信息进行分析,包括词汇、句法、语篇、语义、语用等各种信息。


文本挖掘主要包括文本分类和文本聚类两种。文本分类是指按照预先定义的类别标准自动为文档集合中的每个文本确定类别。文本聚类是指根据文本特征将文本集合分成若干类别的过程,与文本分类不同的是聚类没有事先定义的类别。文本分类是信息过滤、搜索引擎和数字化图书馆等应用领域的基础技术,广泛用于电子邮件分类、垃圾邮件识别、信息检索、文档分类、信息定制推荐等。文本分类方法包括三类:一是统计学方法,如贝叶斯方法、K近邻算法、类中心向量、支持向量机等;二是基于连接的方法,如人工神经网络;三是基于规则的方法,如决策树。


3. 读到胡教授的书,书中用claws7和北大汉语标注对汉语原创的文学、非文学,汉译的文学、非文学进行32个参数的自动标注,再进行因子分析。这个方法可以用来进行译者风格研究吗?比如一个原文的4个平行译文的译者风格区分?

胡显耀老师:当然可以用来分析译者风格。这个问题包括两个部分:其一是Claws7标注后的英语语言特征。我在附录一中列举了96个英语特征,每个特征都是可以用语料库方法取得的。第五章中谈到的案例2采用了Biber的多维分析法(multi-dimensional analysis,简称MDA),核心就是因子分析。多维分析法是一种用于对英语书面语和口语语体进行分析的方法。目前被很多研究者采用。其二是汉语翻译文本的多维分析,这个问题在我的另一本书《基于语料库的汉英翻译语体研究》中有比较详细的介绍。


我采用MDA的方法分别对翻译汉语和翻译英语进行了分析,目的是找出翻译语言的典型特征或变体特征。《语料库文体统计学方法与应用》这本书选择的案例是对翻译英语的研究,因为时间更近,研究方法更严格,采用的特征也更多。


即兴问答

1. 胡老师好,您提到的96个特征是否包含词向量?在文本分类,尤其是神经网络类的文本分类中有没有采用词向量的尝试?

胡显耀老师:语言特征提取需要对语料库工具和方法有比较深入的了解,这96个特征不包括词向量。为了保证这96个特征的准确性,我采用三种不同的语料库工具和方法分别提取这些特征,得到的数据基本相同时才能确认采用这些特征。


2. 请问胡老师,译者风格和译作风格有何区别?利用语料库工具的研究路径是否也有区别?区别在哪?

胡显耀老师:译者风格是与译者个人有关的风格,译作风格是指翻译文本的总体特征(更接近于翻译共性)。研究路径有差别:前者是特定译者的译作与其他译者的译者比较,后者是将翻译文本与原创文本进行比较。


3. 胡老师好,因子分析选取的特征值越多越好吗?降维得出的因子,如果累积方差不高是否意味着因子分析选取的参数有问题?如果研究者不好命名降维得到的因子,还能发表论文吗?

胡显耀老师:总体而言,是这样的,因子分析选取的特征越多越好。你问的问题很好,累计方差不高说明这些特征提取的因子不足以概括数据的主要特征。


因子命名是MDA中一个很重要的步骤,具体你可细读5.3.2节或参看我的一篇英文论文:Hu, X., Xiao, R. & Hardie, A. (2019). How do English translations differ from non-translated English writings? A multi-feature statistical model for linguistic variation analysis. Corpus Linguistics and Linguistic Theory 15 (2): 347-382.这篇论文更详细地介绍了如何进行因子命名。


来源:iresearching 外语学术科研网

原文链接:http://mp.weixin.qq.com/s?__biz=MjM5ODcwMjgzMw==&mid=2651615910&idx=2&sn=d87ffc9ae38ba2a8ebcef4462ab0468b

版权声明:除非特别注明,本站所载内容来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流、公益传播之目的。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。

电话:(010)86409582

邮箱:kejie@scimall.org.cn