春节假期已经过去几天了,不知道大家有没有吃好玩好?朋友圈这几天几乎被美食、萌娃视频和景点照片刷屏了,让人好生羡慕。 朋友圈(为保护隐私,一些信息打了码) 不知道大家注意到没有,上面四条朋友圈消息,有一条是在俄罗斯发出来的。实际上,在这个传统上要回乡团聚的日子里,也有相当一部分人选择全家出国旅游。 根据中国旅行研究院与携程旅行统计,今年春节预计中国出境游人数将达到650万人次,中国人在春节假日出境旅游几乎可以"席卷全球"。 但出国旅游就有个问题:如何在当地交流?这可不是光学会几句英语就能解决的问题,如果你要去不以英语为母语的国家,可能就麻烦了,不是每个当地人都会讲英语。 这时候,手机上的翻译软件就有用处。 目前出国旅游比较流行的是Google翻译。对于中国大陆用户来说,近期比较重要的更新是在去年的3月29日,Google更新后的翻译App可以在中国大陆地区无障碍使用,经过一波宣传,用的人越来越多。 在知乎上"出国旅游有什么好的便携式翻译机或App可用?"这一问题中,得赞最多的回答首推Google翻译App。 知乎上"出国旅游有什么好的便携式翻译机或App可用?"这一问题中,得赞最多的回答 但机器翻译一向被专业译员鄙视,即使Google为翻译加持神经网络技术也没有改变很多人类译员的看法。 最近美国《大西洋月刊》上的一篇文章中,作者道格拉斯·霍夫施塔特(Douglas Hofstadter)对Google翻译diss(侮辱)了一把。他通过英语、法语、德语和中文四种语言翻译比对,论证出一个结果:Google翻译即使应用人工智能技术,也没有真正理解语言。 他在文章中举了中文翻译英文的例子,文本是杨绛的《我们仨》中的一段。 原文: 锺书到清华工作一年后,调任毛选翻译委员会的工作,住在城里,周末回校。他仍兼管研究生。 毛选翻译委员会的领导是徐永煐同志。介绍锺书做这份工作的是清华同学乔冠华同志。 事定之日,晚饭后,有一位旧友特雇黄包车从城里赶来祝贺。客去后,锺书惶恐地对我说: 他以为我要做"南书房行走"了。这件事不是好做的,不求有功,但求无过。 Google翻译版本: After a year of work at Tsinghua, he was transferred to the Mao Translating Committee to live in the city and back to school on weekends。 He is still a graduate student。 The leadership of the Mao Tse Translation Committee is Comrade Xu Yongjian。 Introduction to the book to do this work is Tsinghua students Qiao Guanhua comrades。 On the day of the event, after dinner, an old friend hired a rickshaw from the city to congratulate。 Guest to go, the book of fear in the book said to me: He thought I had to do "South study walking。" This is not a good thing to do, not for meritorious service, but for nothing。 作者翻译版本: After Zhongshu had worked at Tsinghua University for a year, he was transferred to the committee that was translating selected works of Chairman Mao。 He lived in the city, but each weekend he would return to school。 He also was still supervising his graduate students。 The leader of the translation committee of Mao’s works was Comrade Xu Yongying, and the person who had arranged for Zhongshu to do this work was his old Tsinghua schoolmate, Comrade Qiao Guanhua。 On the day this appointment was decided, after dinner, an old friend specially hired a rickshaw and came all the way from the city just to congratulate Zhongshu。 After our guest had left, Zhongshu turned to me uneasily and said: "He thought I was going to become a ‘South Study special aide。’ This kind of work is not easy。 You can’t hope for glory; all you can hope for is to do it without errors。" 作者在这里指出了Google版本不少问题: 翻译中一次也没提到过人名"锺书",而是分别翻译成了"he"、"the book"和"the book of fear in the book"。很明显,Google翻译没有理解出这是个人名; 原文是"他仍兼管研究生",但翻译变成了"He is still a graduate student"(他仍是个研究生); Google译文中的"Mao Tse Translation Committee"这一短语,漏掉了毛泽东主席(Chairman Mao Tse Tung)名字的最后一个字,而且"毛选翻译委员会"明显也不是这么翻译; 原文的"徐永煐"(Xu Yongying)被翻译成了"Xu Yongjian"。 "客去后"被翻译成了"guest to go"(客人要走)。 "南书房行走"中的"行走"被翻译成"walking",这也是Google没有理解原词含义。 不光是这一段,作者从他当下看的书中选择了好多个段落进行测试,几乎每一段都会出现形式不一、大小各异的翻译错误,其中也包括上文所述的无法理解的句子。 为什么Google翻译在上面的例子中还是不尽如人意?在作者看来,Google翻译只是类似于处理密码一样处理语句,而没有像人类一样"阅读"语句,它处理的符号和现实世界是分开的,没有现实体验,也就谈不上理解。 Google翻译不尽如人意,但它真的完全没有用吗? 既然Google翻译在前面的例子中如此糟糕,那对于出国的游客来说,Google翻译还有用吗? 前面dissGoogle翻译的作者霍夫施塔特指出,Google翻译目前还不能做到准确理解语句,但霍夫施塔特只分析了一类文本,那就是文学作品类。 Google翻译面对的可绝不仅仅是想了解文学作品的人,对于不同的需求,它的表现会不会有所变化?换句话说,对于出国游客来说,Google翻译的表现会不会更好一点?做一个简单测试也许能看出来。 新浪科技以百度上各类"出国英语XXX句"中随机挑选的10个出国常见语句为样本,输入到iOS版Google翻译App中测试(这里的测试语句除了常见的问路类型,还有相对比较复杂的),然后将这10句原文和翻译分成三类,分别是"有歧义"、"不常用"和"正确"类型,结果如下: 分类结果 这里要注意的是,这里分类的依据是可理解的程度,而不是语法。这就意味着只要能够被理解且不出现歧义,即使是有明显语法错误的,也可以被分到"不常用"类别,比如"How to get to the subway station"这种有语法错误的句子,但还能通过单词理解,就分到"不常用"类别中。 但即使按照这样不太严格的标准来分类,可理解与有误解的比例还是6:4,以下就来说说四个"有歧义"句子可能出现的误解: "我要退这张票"翻译成"I want to withdraw this ticket",可能会被误解成"我要拿走这张票",因为"withdraw"有"拿走"的意思,而没有"退票"的含义; "我想把这张50美元换开"中的"换开"不能翻译成"swap",因为这个英语单词不能用于"换零钱"这个含义中; "能给我张退税表吗?"的Google翻译"Can you give me a tax return?",把"表格"(form)这个含义在翻译中丢失了,而且"tax return"是"报税"的意思,而不是"退税"的意思; "这有免税店吗?"被Google翻译错译了"Is this duty-free shop?"(这家店是免税店吗?),这是一个只要稍微学过英语的人都会看出来的错误。 从随机的测试结果看来,Google翻译的准确度离满足游客的需要还是差了一些距离。 为什么有了人工智能加持,Google翻译还是不够好? 前文中说过,Google近期比较重要的更新是可以在中国大陆地区无障碍使用。但实际上,Google在前年有一次更重要的更新,那就是将翻译系统从原来的"基于词组的机器翻译"(PBMT)转变为"神经机器翻译"(NMT),也就是将神经网络技术引入到机器翻译中。 Google宣称,经过此次更新,翻译结果更加通顺,可用性更强。 按照百度百科的说法,神经网络"是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型"。这个定义非专业人士不太好理解,没关系,只要知道神经网络是实现人工智能的基础性技术就好了。 人工智能是这几年的大热新闻关键词和最流行的技术,连今年的春节晚会上都展示了人工智能技术加持的自动驾驶汽车。但新闻中常常被讲的神乎其神的人工智能怎么在语言翻译这方面都做不好?前文中那个dissGoogle翻译的作者霍夫施塔特给了我们一个解释。 霍夫施塔特认为,很多人其实对人工智能的期待过高,从而"脑补过度",这在心理学上被称为"Eliza效应",大概意思是说人会过度解读机器的结果。 这里的"Eliza"是上个世纪60年代的早期人工智能项目,能通过脚本理解简单的自然语言,并能进行类似于人类的互动,与它互动过的许多人都认为Eliza确实了解他们内心的感觉。在霍夫施塔特看来,即使是一些人工智能领域的研究者,也难免落入"Eliza"效应的陷阱中。 霍夫施塔特认为,人类的翻译是一个"阅读-内化-表达"的过程,人类读到文本之后,会联想到相关的现实场景,然后基于场景给出另一种语言对于这种场景的表达。 但Google翻译只是一个"解码"过程,即使是人工智能加持,Google翻译也没有真正理解文本,它只是将原文看成被加密的译文,只要解码即可翻译。这样的过程缺乏现实体验,谈不上理解,当然就难免出现错误。 有人也许会问,神经网络技术就不能模仿人类思维来翻译吗?霍夫施塔特也给出了自己的答案,他认为这类机器翻译目前还没有超越单词和短语层面,这样的人工智能在"读"到文本之后,只是联想到对应语言的单词,而不是联想到现实场景,尽管用了复杂的统计词语聚类算法,但这和人类的翻译思维还是不一样。 这种技术加持下的Google翻译,虽然能将原文和译文的词语对应起来,还有一定能力组织成句子,但还是难以理解。 霍夫施塔特的说法在新浪科技的测试中也得到验证。此前的出国常用语句翻译测试,从"退票"翻译成"withdraw ticket"和"换开"翻译成"swap"这两个例子中,就能看出Google翻译目前还停留在词对词或者短语对短语的层面,而不是联想到实际场景,即使按照正确的语法组织起来,也难以让人理解。 借用一位翻译学教授的话:"你每一个字看得懂,但连起来就不是人说的话。" 由此看出,Google翻译距离完全无障碍的应用还有一定距离。在这种情况下,出国的游客除了在手机装上几个翻译App之外,最好还是多学点常用英语,再不济也练一练画图技能,以备不时之需。 当然,人工智能的研究者还是要更深入的探究人类思维,并且开发出一款更好的翻译App;如果真有这么一天,专业译员也会对机器肃然起敬了。 最后,新浪科技祝大家春节假期快乐,不管你是在国外还是国内。