本发明公开了一种统计机器翻译的在线翻译模型选择方法,包括训练和翻译两个阶段,训练阶段包括:收集双语平行语料库,根据类型,将双语平行语料库划分到不同的子语料库中;为子语料库训练候选翻译模型;为子语料库建立索引,得到语料库索引文件;翻译阶段包括:输入待翻译文本,从语料库索引文件中检索与待翻译文本中的句子相似的句子;根据检索结果,得到与相似句子所在子语料库所对应的候选翻译模型,从所有的候选翻译模型中选择最终翻译模型;根据最终翻译模型对输入的待翻译文本进行翻译,得到最后的翻译结果.本发明很好地解决了统计机器翻译系统不能适应不同领域输入文本的问题,能够有效地提高统计机器翻译系统的翻译质量.
发明专利
CN200710099724.6
2007.05.29
CN101079028
2007-11-28
吕雅娟 刘群 黄瑾
中国科学院计算技术研究所
G06F17/28(2006.01)I,G,G06,G06F,G06F17
G06F17/28(2006.01)I,G06F17/30(2006.01)I,G,G06,G06F,G06F17,G06F17/28,G06F17/30
权利要求书1、一种统计机器翻译中候选翻译模型生成方法,包括以下步骤:步骤101)、收集双语平行语料库,根据类型,将双语平行语料库划分到不同的子语料库中,从而构建不同类型的子语料库;步骤102)、根据所述子语料库,训练候选翻译模型;步骤103)、为所述子语料库建立索引,得到语料库索引文件.