科技工作者之家
科技工作者之家APP是专注科技人才,知识分享与人才交流的服务平台。
科技工作者之家 2018-11-04
来自谷歌、Facebook和亚马逊的翻译系统要求训练模型从数百万份已经由人工翻译好的文档中寻找模式——以一种语言给定新词,它们可以找到另一种语言中对应的匹配词和短语。这种方式非常耗时,并且数据也难以收集。更重要的是,对于全球近7000种语言而言,这种翻译模型可能并不存在。研究人员一直在尝试开发一种“单语”模型,这种模型可以在两种语言的文本之间进行翻译,但不涉及直接的翻译信息。
本周在自然语言处理经验方法会议上,美国麻省理工学院(MIT)计算机科学和人工智能实验室(CSAIL)的研究人员报道了一种比单语模型更快、更高效的模型。该模型借鉴了统计学中的一种度量标准——Gromov-Wasserstein distance(GWD)。在GWD中,它先对一个空间中的两点之间的距离进行测量,然后对另一个空间中有类似距离的点进行匹配。CSAIL的研究人员将这一技术应用于翻译系统,即建立两种语言的“词集”。两种语言均以向量的形式表示词汇,意思相似的词会分配在一起。通过GWD方法,模型快速地将单词排列在“词集”中,通过“距离”的远近分辨语意的近似程度。
研究人员发现,他们开发的新模型的翻译精度与最先进的单语模型相近甚至更高,并且翻译速度更快,对系统的运算能力要求更低。CSAIL研究员、论文合著者Tommi Jaakkola说:“我们的模型将两种语言中的词汇视作向量集,然后根据相互关系进行匹配。这种方法对于使用较少的语言或方言的翻译尤为有效。”论文第一作者、CSAIL博士生David Alvarez-Melis补充说:“如果两种语言的匹配数据较少,那你完全可以利用我们的方法进行‘距离’测量,然后实现匹配。”
将词集用于无监督的机器翻译并不是一个新概念。但基于关系距离的向量测量和匹配更为行之有效。为了进行训练和测试,研究人员使用了名为FASTTEXT的数据库,它包含了110种语言对。他们发现,相似的语境中出现频率越高的词有更密切的向量匹配关系。CSAIL开发的翻译模型更像“软翻译”。Alvarez-Melis说:“这种系统不是返回单个词语的翻译,而是告诉用户这个词与其他语言中的某个词有很强的对应关系。”
此外,该模型的另一个潜在用途是量化语言之间的相似性。研究人员认为这可以用于语言学的相关研究。
科界原创
编译:德克斯特
审稿:阿淼
责编:张梦
原文链接:https://scienceblog.com/504156/new-system-may-open-up-7000-spoken-languages-to-computer-based-translation/
版权声明:本文由科界平台原创编译,中文内容仅供参考,一切内容以英文原版为准。转载请注明来源科技工作者之家—科界App。
林世贤团队报道嵌合体翻译系统的开发及其应用
便携式AI系统可将大脑思想翻译成语言
震有科技中标中国联通研究院实时翻译系统,赋能5G垂直应用
科学家揭示新城疫病毒“劫持”宿主翻译系统机制
新城疫病毒“劫持”宿主翻译系统机制获揭示
【SCI翻译】口罩和呼吸器对公众、医护人员、患者抵抗冠状病毒和其他呼吸道传播病毒效果的快速系统评价
新发现的巨型病毒具有最完整的翻译系统
缪小平教授课题组发文系统预测影响蛋白质翻译后修饰相关遗传变异
【SCI翻译】口罩和呼吸器对公众、医护人员、患者抵抗冠状病毒和其他呼吸道传播病毒效果的快速系统评价
【SCI翻译】护士倒班与肥胖之间的关系:一项系统回顾和荟萃分析