麻省理工开发超级“无监督”翻译系统学术资讯

来自谷歌、Facebook和亚马逊的翻译系统要求训练模型从数百万份已经由人工翻译好的文档中寻找模式——以一种语言给定新词，它们可以找到另一种语言中对应的匹配词和短语。这种方式非常耗时，并且数据也难以收集。更重要的是，对于全球近7000种语言而言，这种翻译模型可能并不存在。研究人员一直在尝试开发一种“单语”模型，这种模型可以在两种语言的文本之间进行翻译，但不涉及直接的翻译信息。

本周在自然语言处理经验方法会议上，美国麻省理工学院（MIT）计算机科学和人工智能实验室(CSAIL)的研究人员报道了一种比单语模型更快、更高效的模型。该模型借鉴了统计学中的一种度量标准——Gromov-Wasserstein distance（GWD）。在GWD中，它先对一个空间中的两点之间的距离进行测量，然后对另一个空间中有类似距离的点进行匹配。CSAIL的研究人员将这一技术应用于翻译系统，即建立两种语言的“词集”。两种语言均以向量的形式表示词汇，意思相似的词会分配在一起。通过GWD方法，模型快速地将单词排列在“词集”中，通过“距离”的远近分辨语意的近似程度。

研究人员发现，他们开发的新模型的翻译精度与最先进的单语模型相近甚至更高，并且翻译速度更快，对系统的运算能力要求更低。CSAIL研究员、论文合著者Tommi Jaakkola说：“我们的模型将两种语言中的词汇视作向量集，然后根据相互关系进行匹配。这种方法对于使用较少的语言或方言的翻译尤为有效。”论文第一作者、CSAIL博士生David Alvarez-Melis补充说：“如果两种语言的匹配数据较少，那你完全可以利用我们的方法进行‘距离’测量，然后实现匹配。”

将词集用于无监督的机器翻译并不是一个新概念。但基于关系距离的向量测量和匹配更为行之有效。为了进行训练和测试，研究人员使用了名为FASTTEXT的数据库，它包含了110种语言对。他们发现，相似的语境中出现频率越高的词有更密切的向量匹配关系。CSAIL开发的翻译模型更像“软翻译”。Alvarez-Melis说：“这种系统不是返回单个词语的翻译，而是告诉用户这个词与其他语言中的某个词有很强的对应关系。”

此外，该模型的另一个潜在用途是量化语言之间的相似性。研究人员认为这可以用于语言学的相关研究。

科界原创

编译：德克斯特

审稿：阿淼

责编：张梦

原文链接：https://scienceblog.com/504156/new-system-may-open-up-7000-spoken-languages-to-computer-based-translation/