快生活 - 生活常识大全

机器翻译的巨轮势不可挡搜狗正在尝试引领航向


  无论是在《星际迷航》、《神秘博士》还是《银河系漫游指南》里,翻译机都是一项理所当然且相当基础的发明,而它之所以总是出现在科幻题材的文艺作品里,正是因为某种程度还是超出人类的技术想象,从而成为「托物言志」的叙事素材。
  事实上,让科技解决语言障碍——而不必使用成本极其不划算的人力中介——一直以来都是一种颇具未来感的期待,早在上世纪九十年代初,联合国就将计算机翻译技术的开发(在当时被称作是多语种通信环境工程)列为全球性的计划,鼓励各国投入研究,而中国亦在1997年成立了机器翻译委员会,把程序员和翻译员两种可能「风马牛不相及」的职业划在一起共谋大业。
  通译、汉神、东方快车、即时通乃至日后大展宏图的金山词霸都是那个时代的标准产物,但是直到机器学习的概念和应用问世之前,一切努力都显得僵和呆板,因为就原理而言,早期的翻译软件只是利用计算机的资源特点构建了一个庞大的词库系统,达意的往往只有词汇而无语句,更不必提语义理解,和科幻作品里那种「一机在手,天下我有」的便利不可同日而语。
  就连时至今日的Google,都会在相当粗浅的翻译内容上闹笑话:
  *这个错误的原因,其实只是Google翻译不知道「卡顿」是什么意思,然后自作聪明地联系上下文补进去了关联词汇
  几乎是和人工智能在历史上的数轮浪潮呈现相同轨迹,翻译技术能否达到公众理想中的自然,也几经波折,且度过了从敬畏机器到重新敬畏人类的过程:电脑的计算速度和储存规模千万倍地胜过人类,然而在分辨一只生物究竟是不是猫的考验上,它的表现连三岁的婴孩都不如。
  《人类简史》的作者尤瓦尔·赫拉利认为,语言是人类有别于其他动物拥有智慧之名的「最独特功能」,尽管从蚂蚁、蜜蜂到鲸鱼、大象,它们都具备着独特的沟通方式,但是唯有人类可以通过语言进行虚构、创作、逻辑、想象乃至沉淀思想等等行为,最终推动了心智的进化。
  换句话说,在没有接近理解并模拟大脑运作的原理之前,所谓「奇点」降临的憧憬就很难说得上实现,卡壳的不止是翻译这件工作,几乎所有生产力的再次解放都被阻拦在巨大的山谷入口处。
  在和搜狗IOT事业部首席产品经理李健涛的交流里,他将临界点标注于神经网络的大规模训练开始成为互联网公司的突破日程上,它意味着只要给予足够丰富的学习资源和能够自主运行的智能程序,加上远远小于代际尺度的时间成本,调教出能够满足日常会话的即时翻译产品已经不是难以企及的预期。
  而搜狗则在今年三月,直接发布了一款概念感十足的量产硬件:搜狗旅行翻译宝。
  其实早在六年前,Google就萌生了把翻译工具装入硬件终端的念头,当时还在负责Android业务的Hugo Barra——对,就是后来去了小米的那个——曾向媒体透露,Google正在开发的系统功能之一,就是可以让手机通话的双方可以各说各的母语,系统将自动翻译转化,让不同语种的联系一气呵成。
  但是,因为以NMT(Nueural Machine Translation)为代表的翻译技术尚未成熟,这项雄心勃勃的重建巴别塔计划最终还是搁浅了数年,直到2017年,Google才以耳机配件的形式,发布了内置语言翻译应用的Pixel Buds,重返前线。
  同时,搜索引擎似乎天然适合解决这类需求,这不止是因为它的产品形态决定了本身有着与信息打交道的高密度吞吐工作,还包括用户的输入数据——无论是文字还是语音——都会向搜索公司提供几乎无穷无极的学习素材。
  和Google相似,搜狗的语音识别系统也在最初就写进了搜索引擎的产品底层,在今天,每天3.6亿次语音请求的请求、26万小时的语料构成了机器学习的最佳教材,最终这项能力被封装到了搜狗旅行翻译宝里,用于解决像是出境游这类场景的痛点上。
  根据中国旅游研究院的统计显示,在整个2017年,中国的出境游总人数超过1.3亿人次,继续保持7%的高速增长,这个庞大且上升的市场,早已表现出极其明显的消费升级的特征。
  而为了改善出境游的体验而将翻译工具纳入消费清单,正是检验产品是否拥有真实价值的最佳方式,从开售表现来看,这款定价并不算低廉——1498元人民币——的智能硬件在京东的销售额已经突破1000万人民币,相当不俗。
  另一方面,从解决方案的落地路径来看,搜狗旅行翻译宝的选择其实是最难的一条,也就是说服用户购买一款独立的专业设备。
  与之相比,无论是软件路径(比如依托于智能手机的翻译类应用),还是如同Pixel Buds那样借力手机配件(用户总是需要购买耳机的)的,都显得门槛更低,所以问题在于,为什么搜狗要弃易从艰?
  其实还是为了追求相对完美的体验。
  比如搜狗旅行翻译宝的大量功能——识别、翻译、合成——都支持离线模式,可以不必过度依赖网络,而出境游场景的不确定性之一,就是网络的稳定问题。
  比如搜狗旅行翻译宝同时支持语音翻译和拍照翻译,可以满足体验者不同的出行场景,体现产品的真实价值。
  比如智能手机的麦克风拾音优先顾及的是通话效果,也就是放大近场拾音、抑制远场拾音,但在出境沟通时,往往需要拾取一米开外的声音——比如隔着柜台询问营业员某款商品的情况——这就需要麦克风阵列的特别设计。
  包括之后翻译宝会考虑与搜狗自身的一些长处进行融合——比如导航能力、搜索能力——也都被整合到了翻译宝的产品里,这个方向实际上是将语音交互作为下一代操作系统的雏形进行试探的。
  李健涛甚至拿搜狗旅行翻译宝的OCR功能举例:「如果你在卢浮宫博物馆,看到举世闻名的蒙娜丽莎画作,但它背后代表着什么、有怎样的艺术意义,对着一堆英文法文如果看不懂,那么旅游的乐趣和价值就会大打折扣,而我们的产品,其实是可以实拍实译,直接把它的背景故事同步呈现在屏幕上,这就要比那些没有屏幕、没有摄像头的翻译硬件要更有效率一些。」
  而本次讯飞在亚洲博鳌论坛露出的新品翻译机,虽然新增了拍照翻译等功能,却不禁让人唏嘘,入局虽早,却逐渐成为这个行业的跟随者。搜狗旅行翻译宝独家的AI技术与优秀的商业化能力不仅带来了市场的良好反馈,更成为AI翻译机混乱市场的破局者。
  说来有趣,与AlphaGo对弈的时候,柯洁曾在被央视国际电视台记者用英文提问时抬杠,怒怼「如果你是中国人的话就应该用中文向我提问题。」
  事实证明,这种基于语言的分歧越来越不会成为真正的难题,如同那些持续了数十年的人机竞赛越来越让人类惊讶,当互联网公司相继掌握了智能的钥匙,用什么语言提问、用什么语言回答,都将成为观众可以自定义设置的基础选项罢了。
网站目录投稿:含巧