从翻译软件到硬件,商业化背后的逻辑是什么?不同硬件产品的设计思路有什么不同?技术优势造成了产品体验的哪些殊异?翻译硬件的未来又当如何?采访了几位目前主流翻译产品负责人后,我们试图为你找到答案。 撰文 | 王艺 编辑 | 微胖 网易有道今日召开发布会,宣布完成首次融资,估值达 11.2 亿美元。 发布会上,网易高级副总裁、有道 CEO 周枫首次公布了公司深耕教育领域的 TEACH 模型。其中,「H」代表的智能硬件(Hardware)构成公司业务重要一环。 去年年底,有道发布了首款智能硬件产品翻译蛋后,收获了市场的良好口碑和销量。发布会上,有道宣布,即将推出两款全新智能硬件:有道翻译蛋 2 代和有道词典笔。 近年来,翻译市场呈现愈发火热的态势,大批玩家涌入,不论是在业内深耕多年的有道、百度,还是后起之秀腾讯、科大讯飞、搜狗、彩云小译等,都推出了自己的软件翻译应用,有道、搜狗、讯飞还推出了自己的硬件设备。 3 月 12 日「狗胜节」这天,搜狗旅行翻译宝正式开售,售价 1498 元。网易有道也在同一天宣布将于近期上线其有道翻译蛋 2.0,售价千元以内(1.0 版翻译蛋售价 688 元)。 八天后的 3 月 20 日,搜狗宣布其旅行翻译宝销售额破 1000 万,还在纽约时代广场的纳斯达克 LED 显示屏上做了一波广告。翻译硬件市场达到一个小高潮,这些硬件最直击的痛点便是旅行场景的翻译问题。 搜狗旅行翻译宝 而科大讯飞的晓译翻译机(售价 2999 元)、译呗(售价 1199 元)以及分音塔科技的准儿翻译机(售价 1288 元)等多款移动翻译硬件设备早在二者之前就已经推向市场。 技术进步驱动下的硬件市场 「技术变得可行了,质量达到一定的水平了,消费者的需求就被释放了,自然就有很多人加入来做这件事。」网易有道首席科学家段亦涛表示。段亦涛博士毕业于加州大学伯克利分校,博士在读期间就参与了有道底层架构的搭建工作,供职有道有十多年时间。 他所说的技术变得可行了,最典型的标志是,最近两三年,机器翻译技术完成了从统计机器翻译(Statistic Machine Translation,SMT)向神经网络机器翻译(Neural machine translation,NMT)的转换。 也就是说,在系统的训练过程中,不再需要领域知识的帮助,机器翻译的技术门槛开始降低。 以机器翻译为例,在 SMT 时代,机器学习研究者需要与语言专家共同工作,对词性进行标注,将句子进行分词处理,做很多语言学相关的工作。 而 NMT 方法只需输入大量的源语言和目标语言对,系统就能够自动学习翻译方法。系统训练好后,再输入源语言句子,系统就有能力输出目标语言。 这意味着机器翻译系统的构建过程不再需要语言学家的大范围渗入,只需以顾问的形式对工作进行指导即可。 正是因为不需要艰深的领域知识,只需要足够多的优质训练数据。因此,使用 NMT 模型,研究团队能够快速覆盖更多的语言对(中英、中法、英日等语言与语言之间的匹配称为语言对)。 目前,百度翻译支持 28 种语言的在线互译,有道翻译蛋支持 27 种语言,搜狗支持 18 种,讯飞支持中、英、日、韩、法、西六种语言,彩云小译目前支持中英日三种语言。 讯飞晓译 除语言覆盖易扩展这一优点之外,NMT 的另一大好处是相比于 SMT,翻译结果更加准确流畅。 机器翻译业内有一个较为权威的衡量翻译效果的指标——BLEU 值,当初 IBM 提出这项指标的时间是在 2002 年,那时还是 SMT 的天下。 BLEU 值着眼于翻译结果的充分性、忠实度、和流畅度。充分性是指有没有漏翻的情况,忠实度是指准确率、流畅度指结果和人类正常表述的贴合度。 SMT 技术发展到后期,效果提升缓慢。与此同时,使用 NMT 技术进行翻译的效果正迅速提升。反映到 BLEU 值上,这两年 NMT 技术取得的提升大约是过去十年 SMT 取得的提升总和。 事实上,在 NMT 时代,能覆盖到多少种语言已经不是各家 PK 的战场,翻译的准确度、流畅度才是。 准儿翻译机 需求多了,玩家多了,玩法也就多了。曾经用户只能以文字的形式进行输入,得到文字结果。现在,结合语音识别、语音合成技术,翻译服务能够以语音的形式提供服务。结合图像识别领域的文字识别技术,拍照翻译也得以实现。 目前,几乎所有的主流机器翻译服务提供商,都具备语音翻译和拍照翻译的能力。而这两项能力与出国旅游的场景天然契合,从一定程度上刺激了专用翻译硬件产业的发展。 「这几年,机器翻译呈现出明显的从云到端的态势。」段亦涛说。 翻译 App 为什么不够用? 说到底,翻译硬件上能够实现的功能,手机 APP 都能实现。那么,消费者为什么还要花几百上千甚至几千元购买一个专用的翻译硬件呢? 尽管和 APP 功能相同,但翻译硬件有着不可替代的技术优势,表现在翻译效果上能够呈现出可以感知到的差别。搜狗 IoT 事业部产品负责人李健涛解释道: 首先,在拾音方面,手机天然不是为远场拾音所设计的。 手机的使用距离默认在 0.5 米以内,并且会通过技术手段对远场音频信号进行消除。而在语音翻译的使用场景中,大多数情况是在 0.5 米之外的。 搜狗旅行翻译宝主打的旅行场景会面临嘈杂的街道环境,这些对麦克风阵列的设计都构成了挑战,需要进行一定的定制化。 随后,在处理能力方面,手机芯片不能为翻译 APP 专用,在离线翻译时会出现延迟、翻译不准确等问题。而专用硬件中的芯片完全为一个功能服务,更加可控。 比如,搜狗旅行翻译宝采用 CPU GPU 计算架构,大的矩阵运算交给 GPU,小的琐碎任务交给 CPU。 不过,仅仅因为翻译效果好,消费者就会愿意掏钱买硬件吗? 「有一些人对翻译的需求是很高的,你让这些人每次开口说话的时候都掏出手机来,解锁,找到翻译软件才能交流,是很恼人的。」吴迎晖说。 经过小半年的销售数据与用户反馈,有道发现翻译蛋的主要用户有以下几种人: 早期尝鲜的极客、长期出差在国外的商务人士(且一般是年纪较高的商务人士)、英语学习人群、对翻译有强烈需求的群体(例如有菲佣的家庭、跨境旅游的人群等)、以及不知道翻译 APP 这码事儿的人。 网易翻译蛋 另外,搜狗李健涛还谈到,翻译宝的购买群体中,还有很大一部分是子女买来送给父母。在出国游场景下,一键翻译的便携设备几乎是年长父母的刚需。 一位翻译硬件从业者曾经向机器之能表示,通过手机进行翻译交流,对方可能会产生不安全感,担心隐私泄露问题,而且面对旅游场景素昧平生的人,你也不会放心把手机交到他手上。 但是以上几类目标客户,都不是覆盖面很广的群体,那么这些卖翻译硬件的公司,为什么要费力做一个受众不会太广的产品呢? 翻译蛋是有道翻译商业化的一部分。网易有道副总裁,也是网易有道翻译蛋的产品负责人吴迎晖在接受机器之能的采访时表示, 「我们云端接的是有道翻译的技术,硬件是深圳那边很成熟的部件组合起来的。」 吴迎晖给我们算了一笔账,每台有道翻译蛋售价 688 元,如果能达到年销售量达到十几万台的目标,那么翻译蛋就是一个年销售额达到 1 亿元的产品。 这个市场有多大?一年能不能卖出十几万台? 吴迎晖表示,有道在投身硬件市场之前,进行了一番市场调查。 「2016 年讯飞晓译翻译机卖了 7 万台,价格将近 3000 元。在如此高的售价下取得了可观的出货量,我们认为这或许是一个可以进入的市场,毕竟年出货量在 10 万台以上的智能硬件产品是不多的。」 「靠软件赚钱要等到什么时候,」翻译软件彩云小译的创始人兼 CEO 袁行远说, 「我觉得这些翻译硬件如果没有超过 APP 的用户体验,只是卖一个装上翻译 APP 的专用手机的话,是在拿名声换钱。」 硬件设计差异背后的逻辑 当前主流翻译硬件产品,在硬件和系统设计方面均呈现出了很高的区分度。 在「面子」,也就是硬件设计方面,各家产品造型各异,显然是有自己的考量。 网易吴迎晖谈到,在翻译蛋的产品设计过程中,团队刻意避免了翻译蛋与手机在外形方面的雷同。 「一定要避免这个,不要让消费者拿它和手机去比。」吴迎晖说, 「一部红米手机才多少钱,消费者一比较,就会觉得『我买手机多好,还能发打电话』,这样就忽略了我们这个设备的专用属性。」 所以,网易在外观设计、屏幕选择、重量设计方面都与手机做了区隔。最终面市的翻译蛋外形圆润小巧,机身为工程塑料,搭配一个 2.0 英寸的屏幕,自重 60g,仅为一颗鸡蛋的重量,外出时搭配保护套还能挂在脖子上。 不过在搜狗看来,「用户是一定会拿你的东西和手机比的,这是一定的,不是说你想让他不比他就不比的。」李健涛说。 搜狗旅行翻译宝长相酷似手机,屏幕占比很大,而且为了满足拍照翻译的需求,还搭载了摄像头。 搜狗没有刻意避免外观上的相似,更希望以比手机 APP 更佳的性能吸引消费者。 我们注意到,和讯飞的两款翻译硬件产品不同,网易翻译蛋自带屏幕。 「不要屏幕其实是非常、非常激进的手段。」吴迎晖认为, 「没有屏幕确实更纯粹,给人一种就是语音设备的感觉,我们的工业设计师倾向于这种风格。而且晓译的定位就是商务化,需要沉稳的感觉。」吴迎晖说, 「但同时,我们要清楚,现在的语音识别以及翻译总有不准确的时候。」 吴迎晖认为,当前的语音识别技术,在安静环境下能够表现很好,但在嘈杂环境下效果差强人意,而且翻译技术也不能达到 100% 的准确。 当错误情况发生时,如果没有屏幕的话,用户会抓狂,因为用户不知道里面发生了什么事情,是识别错了还是翻译错了,也就不知道该拿它怎么办。 搜狗在试用回访的过程中也注意到了屏幕的问题。 他们发现,除网易所考虑的增强用户信赖感这一原因之外,还有一个原因是,在对话过程中,用户其实不必等对方说完后机器朗读出来才能获取信息。 机器朗读速度慢,如果能够在翻译完成后直接查看文字,交互效率会更高。 讯飞晓译解剖图,与搜狗和网易不同的是,讯飞的两款硬件翻译产品「晓译」和「译呗」均没有屏幕,走极简风。 在按键设计上,所有的硬件翻译设备都不约而同地选择了两个实体按键的配置,一个用来将「源语言翻译至目标语言」,另一个则是相反的方向。 「一开始我们也担心用户会搞不清楚怎么用,但是后来我们发现,设计成两个按键,用户在初次使用时的认知成本也不高。」吴迎晖说。 若设计成一个按键,系统将更加简单易用,这一点从各种翻译 APP 的比较中可以明显地感受到。 比如彩云小译拥有识别语种的能力,因此只需一个按键便能满足用户需求,体验确实更加人性化。 在这一问题上吴迎晖也坦言,在产品发布当时,有道在识别语种的能力上还不成熟。 而在搜狗看来,自动识别语种这件事,市面上没有哪家的技术是成熟的。 「要识别语种,至少需要十秒以上的音频才可以。现在的技术还远达不到只说一句 Hello 或者 How are you 就能够识别出来你在说哪种语言。」 而且「实际使用过程中误触率是很高的。」搜狗语音交互技术中心研发总监陈伟表示。 对此,彩云科技袁行远认为,不需要十秒钟那么长,「但确实需要一定时间」。 袁行远表示,根据彩云的测试结果,通过手机端运行音频分析的神经网络,彩云小译 APP 可以在几秒的识别时间内做到 95% 的中英文辨识准确率。 技术优势不同,产品体验不同 在「里子」,也就是系统层面,各个产品之间的差异也不小。 语音翻译这件事,主要分为三个部分:语音识别、机器翻译、语音合成。 和采用自家语音识别技术的讯飞和搜狗不同,作为深耕翻译领域的公司,有道对语音识别稍显陌生。在有道翻译蛋 1.0 版本中,选择了合作较多的微软技术。 目前各家语音识别技术效果都达标,吴迎晖坦言,讯飞语音识别很难得的一点在于,使用了很多中国人读英语的语料对系统进行训练,这样在英语学习场景中,识别中国人说英文的准确率会大大提升。 不过目前,有道已经组建好自己的语音识别团队,在有道翻译蛋 2.0 版本中,将采用自己的语音识别技术,以降低出错的概率,增加对系统整体的掌控性。 至于机器翻译层面,由于各家长期积累的语料不同,在不同的垂直领域翻译的质量也不尽相同。 例如,有道词典在十多年的发展过程中积累了大量新闻方面的双语互译数据,因此有道在新闻方面,特别是科技新闻方面表现良好。 有趣的是,有道在其竞品调查过程中,发现百度翻译在机械学术资料领域发挥出色,而谷歌的特点在于稳定。有道表示,不管用多低频的句子测试谷歌的系统,它的翻译结果都不会出特别大的问题。 搜狗陈伟则表示,搜狗的优势领域在于口语对话,这来源于搜狗在输入法、同传等任务上的长期积累。 「各家数据来源不同,也决定了优势领域的不同。比如百度翻译在机械学术领域好,我觉得应该是他们拿到了大量的专利数据。」陈伟猜测。 讯飞译呗 从翻译硬件整体的运转流程来看,分为在线和离线两种模式。 2017 年 10 月网易有道翻译蛋 1.0 发布的时候,产品还不具备离线翻译功能。 上市后,团队收到的用户反馈中右 60%-70% 针对离线功能。用户不能理解,为什么买回家一个专用设备,还需要链接 Wifi 才能工作。 离线模式,也正是产品难点所在。 但是,离线功能需要完整的引擎栈,而吴迎晖表示,市场上想要找到一个已经商业化的性能优质的离线语音识别引擎都很难。而且,要把 NMT 模型压缩到移动端芯片上去,还需要面临芯片选型的问题。 「离线这件事情很难做,而且需要时间验证。当时那个时间点上,国内同时出现了包括准儿在内的好几款翻译机,晓译也已经面市有一段时间了,讯飞又出了第二款翻译机译呗。」吴迎晖知道,市场对翻译硬件的需求正非常旺盛, 「我们没时间再等,等我们所有的技术都备齐了,我们也就错过了那个市场周期。」 比网易翻译蛋提前面市的讯飞晓译拥有离线翻译功能,但支持语种有限,且翻译质量有待考量。有不愿透露姓名的业内人士甚至怀疑讯飞的离线翻译使用的是 SMT 技术而非 NMT。 2018 年 3 月,搜狗旅行翻译宝面市时,搭载了离线翻译功能。搜狗认为,作为一个旅行场景的翻译硬件,离线是必须的。原因非常简单——在国外使用蜂窝网络体验很差。 「出过国的人都知道,国外的移动信号往往并不像国内这样方便,而且就算是办理了海外移动上网业务,信号也需要发送至国内基站,延迟非常严重,这将直接影响设备的翻译效果和体验感受。」搜狗李健涛说。 技术负责人陈伟表示,目前搜狗旅行翻译宝的离线模型已经压缩到在线模型的 1/48,且精度接近无损,还能实时响应。 两大对手均已在离线翻译方面展开尝试,网易有道也拿出了不甘落后的态度。有道翻译蛋也表示带有离线功能的网易翻译蛋 2.0 将于近期上市。 与这些自研技术的大厂不同的是,全部外接第三方技术的准儿翻译机在离线问题方面的解决方案可谓简单粗暴——提供一些常用场景下的常用句子及其翻译,并打包成离线包存储在机器里。 比如「麻烦让一让」,「这个多少钱」等,只要点击相应的句子,准儿就会以语音的形式输出对应的翻译结果。 不过准儿的这一策略是不可持续的,随着各家离线 NMT 技术越来越成熟,准儿面临的形势也将越来越严峻。 翻译硬件的未来:「快译通」还是嵌入其他硬件? 吴迎晖认为,在著名的技术采纳曲线中,翻译硬件还处在 Early Adopter 阶段,并且其中的 Gap 很难跨越。 「这个产品最终不可避免的一个问题是,对大众来说,它的使用频率是非常低的。」他说。 因此,有道在积极探索翻译蛋的其他功能,例如针对英语学习者添加查词功能,将翻译蛋变成一个语音词典,或者添加帮助学习者正确发音的功能等。这些功能听起来非常复古,让人联想到 20 世纪初的「快译通」。 不过在搜狗看来,当前翻译宝形态的产品只是一个过渡,未来翻译技术将被嵌入至耳机、眼镜等硬件中。 搜狗翻译耳机的市场调研已经开始进行。不过,他们也发现谷歌和讯飞的翻译耳机设计尝试都不成功。 「首先拾音质量非常糟糕,大量杂音消除不掉,导致识别结果很差。另外像 Google Pixel Buds,它与手机之间的连接很差,最后只能设计成通过自主协议链接手机,只能链接 Pixel。」李健涛说。 「所以说连无线耳机都是个问题,翻译耳机就更是问题。这件事不是我们不想做,而是确实技术还有门槛。」 Google Pixel Buds 在产品的营销渠道方面,李健涛表示,目前与 B 端合作伙伴还没有探讨出特别成熟的玩法出来, 「从生意的角度来讲,他们必须考虑租赁多少次,每次多少钱,才能摊掉成本。但对于翻译硬件类的产品,成本是不太容易覆盖的,也就是说传统的租赁方法是不能套用在翻译硬件上的。」 除直接面向 C 端消费者的渠道外,搜狗也在积极地与几大 OTA 品牌,包括途牛、携程等公司接触,希望共同摸索出有效的合作模式,类似出境游时旅行社会提供的 Mifi。