
作者:朱靖波 自从盘算机降生开始,机械翻译属于盘算机首先想到的主要应用之一,使用盘算机软件技术实现差别语言自动翻译。现在许多人说处于人工智能时代,得语言者得天下。
机械翻译也是认知智能的终极梦想之一,本节将分享我们对机械翻译技术和应用的一些思考,有些想法纷歧定正确,也许需要十年之后才知道对错。简朴来说,机械翻译技术应用至少可以满足三个用户需求。一是实现外文资料辅助阅读和资助差别母语的人们举行无障碍交流;二是盘算机辅助翻译,资助人工翻译降本增效;三是大数据分析和处置惩罚应用领域实现对多语言文字资料(也可以图像和语音资料)举行加工处置惩罚,海量数据翻译对于人工翻译来说是无法完成的, 机械翻译是大数据翻译的唯一有效解决方案。
从上述三个需求可以看出,机械翻译和人工翻译本质上不存在严格冲突,属于两个平行轨道,两者可以和谐共存、相互资助。对于机械翻译来说,至少有两个应用场景是无法胜任的。第一个是要求高质量翻译效果,好比诗歌小说翻译出书;第二个是好比国家向导人讲话,轻易不允许泛起低级翻译错误,否则有可能导致严重结果甚至国际纠纷。
严格上来说,对译文准确性要求很高的应用场景不行能简朴接纳机械翻译,必须由高水平的人工翻译到场来完成。机械翻译技术生长至今履历了三个主要阶段,基于规则的方法、统计机械翻译和神经机械翻译。基于规则的方法大家都比力熟悉,专家人工书写一些转换翻译规则,将源语句子转换翻译成为目的译文句子,最大的瓶颈问题是人工书写翻译规则价格很是高,感受没完没了写不完,最后规则写多了容易发生冲突,造成跷跷板现象。
为相识决这小我私家工书写翻译规则价格过高的问题,后两个生长阶段主要接纳机械学习的方法,事先准备好较大规模的双语句子作为训练语料,接纳机械学习方法来构建机械翻译系统,原则上不需要人工干预或者太多干预,机械翻译系统构建的价格低、速度快,主要瓶颈问题就是需要事先收集好大规模双语句对荟萃,对于许多语言对来说难度比力大,特别是小语种语言对。如何构建一套好的机械翻译系统呢?假设我们需要给用户提供一套翻译品质不错的机械翻译系统,至少需要思量三个方面:足够大规模的双语句对荟萃用于训练学习、强大的机械翻译技术和错误驱动的打磨历程。前两者大家比力好明白, 第三点也很是关键,通过总结翻译错误分析原因,好比属于数据问题还是技术问题,找到一个解决方案,不停迭代优化翻译品质越来越好。
从技术应用和工业化角度来看,简朴靠提出一个新的机械翻译技术,对于构建一套好的机械翻译系统来说,只能说须要条件,不是充要条件,上述三者缺一不行。据相识全世界至少有五六千种差别语言,能够电子化的语种至少也有两三千种, 我们真正熟悉的主流语种不会太多,许多语种人才在海内也是稀缺资源。
为了缓解这个问题,究竟造就小语种翻译人才价格奇高,机械翻译成为了一个有效解决方案。现在主流的机械翻译技术是神经机械翻译,基于深度学习技术,翻译品质依赖于双语句子训练数据规模。
我们都知道,只有主流语种好比英语和中文有能力收集较大规模的双语句对荟萃,现在大多商用英汉机械翻译系统使用几个亿的中英双语句对训练而成,但对于 99%以上的语言对来说是遥不行及的。甚至大部门语言对的电子化双语句对荟萃规模很是小,过百万算多的,许多只有几万个句对,甚至没有,最多有一个小规模双语词典而已。资源稀缺语种机械翻译技术研究也成为学术界的研究热点,这个课题的突破相信 能大大推念头器翻译技术落地应用。
机械翻译自己是一个刚需,在许多大数据翻 译应用场景,机械翻译是唯一有效的解决方案,非人工翻译所为。在 2017 年以前机械翻译市场规模一直很小,主要原因就是受制于机械翻译品质不够好,就算 接纳最先进的神经机械翻译技术,缺乏足够大规模的双语句对荟萃作为训练数据, 我们也是巧妇难为无米之炊。从技术研究和应用可行性角度来说,解决资源稀缺 语种机械翻译问题很是有价值。
我们通常可以思量两个维度来思考,一是如何想 措施获取更多双语句对,甚至包罗质量低一点的伪双语数据;二是如何从更少样 原来实现高效学习,或者充实使用富厚的单语数据资源或者可比力数据资源来提 升训练学习效果。
本文来源:开云app官网入口-www.yufan-sz.com