这一段项目时间不是很紧张,比较有时间去探讨一些细节的问题,有些东西可以做有些东西可以不做,去探究背后的原因是一件很有趣的事情。 一、简单介绍VUI 想必大家对于语音交互并不是很了解,而车载方面的语音交互更是陌生。这里我先来科普下大背景,至于对这个方面比较感兴趣的可以查找一下资料,想必其他的文章会很详细的介绍理论。这里我先讨论在实际应用当中的需求探索。 首先语音交互是从交互式语音应答系统(Interactive Voice Response,IVR)而来,它是通过电话来执行任务,和10086不同的是,它能够识别人们说的话,由于擅长处理带有大量信息的复杂句子,应用场景比较广泛。 后面智能手机高速发展,于是诞生了VUI(Voice User Interactive ),像Siri、Cortana都是比较典型的应用,语音交互一直被称作"最为自然的交互入口",优点和缺点都很明显。 车载场景的语音交互,有个很明显的优势:无需司机分心操作,直接语音指令即可达到想要的目的。所以在车内使用语音交互,任务型需求会占大多数。 二、实际应用中遇到的问题 今天看到之前的产品文档中有这样一个设计: 当前的设计都由于技术的限制,不支持的说法不能进行下一轮的对话,所以这里在反馈完毕后直接退出语音。并没有什么大问题,很多车机语音交互直接提示不支持的说法,后面的说法提示都没有。但这个方案对于用户来讲,依旧大大打击了他们使用语音的积极性,这样的设计至少有下面几点不是很合适的点: 在人工智能不是很智能的情况下,尽量理解用户意图并允许用户继续交谈。 功能点设计要考虑可发现性,对于语音交互,看不到的交互方式更要提高它的可发现性。 已知的对话原则中有一点:方式准则,即说话需清晰明了,这里可以做简化,但也需要针对不同的用户群体。 三、从用户出发,了解说出这句话的初始意图 在我看来语音交互是一个比较繁琐的设计过程,因为不同场景用户会说什么样的话很难预测,所以我会选取几个最常见的使用场景,然后为每个场景按照最优路径(同样结合业务流程)写出示例对话,同时还要加上异常情况。 这个就是在切换播放模式时的一种异常情况: User:帮我切换到随机播放/随机播歌/按照随机播放歌… TTS:随机播放 (TTS:从文本到语音,Text To Speech,一般是由产品、交互设定的内置文本,当用户说了某句话命中某个说法,那么就播报该说法对应的反馈语。这整个过程就算做是一个完整的对话交互设计了。) 再来看看用户为什么会这样说"切换播放模式"吧: 在手机APP上,切换播放模式,都是点击切换到自己想要的播放模式,三个播放模式是固定的顺序,所以在车机上用户也会想要延续这样的操作习惯,才会有这样的说法。 知道播放模式有哪些,但是不知道车机上语音对音乐的操控有哪些,所以试探性的尝试。 不清楚有哪些播放模式,所以只是想看下有哪些播放模式 不论从哪个出发点,最终的目的导向都是:想要切换播放模式。 四、根据不同意图,对用户进行分类,寻找更好的解决方案 根据上面三种情况,其实可以分为: 对音乐比较熟悉的用户,对车机端的语音控制探索使用。 对音乐不怎么熟悉的用户,对车机端的语音控制探索使用。 再来看看语音切换播放模式的需求想要解决的问题: 无需关注界面,直接下达语音指令达到目标; 缩短用户操作路径:比方说手机上切换播放模式,有时候需要点击两次;而车机上直接下达明确指令,直接完成。 来,先来分析上面两种用户群体的更深层的用户定位。 1.对音乐比较熟悉的用户 手机上的操作大部分是因为在播放详情页的操作按钮过多,所以把播放模式收入到一个按钮中去,下面是不同的音乐界面,特意选择了一些不常用的音乐App,出乎意料酷狗是可以选择,基本其他的应用都采用点击切换播放模式的交互; 再深入一点,手机用户切换播放模式的时候分两种场景: 第一种,熟悉播放模式的人,在操作之前会有一个心理预期,所以会设定为她想要的播放模式,而播放模式的切换最多点击三次,用户成本不会很高,所以这也是大部分手机APP将它收入一个icon当中的原因; 第二种,不是很熟悉的人,他们在操作的时候可能会想了解有什么播放模式,最后再去确定最终的心理预期,所以点击会超过三次。 综合上述,不论是熟悉程度如何,都会有一个既定的心理目标,有比较明确的操作意图。 而对音乐APP比较熟悉的用户群体基本集中在:18-40岁左右,他们基本上都知道有这三种播放模式,所以可以有以下做法: 做法一:经过刻意引导,让他们的意图更为明确,这样就不会出现这样的说法;直接下命令切换,也能够减少用户的操作路径,降低用户的操作成本。 做法二:先完成用户目标用意:切换播放模式,再提示用户有什么播放模式可以切换,让用户逐渐熟悉 做法三:完成用户目标用意,不进行提示,三种播放模式可能用户就是比较懒,不想说出具体的播放模式名称,这样只记住一个说法即可达成。 2.对音乐不怎么熟悉的用户 我专门找了我亲爱的爸比,询问了下他的中老年开车朋友们,年龄分布在40-50岁,大部分在45岁以下。下面是一些聊天记录。 我的问题:你们在播放音乐的时候,知道能够切换播放模式么?如果知道,那你们知道有几种播放模式可以切换么?请说出你们印象中的名字。在这个过程中,不要打开音乐APP查看,靠自己的记忆~ 很出乎我的意料,可能调查的目标用户在一线城市会结果又不一样。但是生活在一线城市的中老年人人数又有多少呢?很大部分的中老年人都生活在非一线城市,对于他们而言,简单的播放歌曲就能满足他们对音乐的需求。 但是,有没有必要像这一部分的人推送这个功能呢? 再来看会使用智能车机的人群分布:(网上扒来的数据,随意看下) 有65%的中国消费者愿意接受车联网功能,高于欧洲国家的40%和北美的32%。中国消费者也更加愿意尝试娱乐资讯方面的功能,比如社交媒体和车载视频及音乐。 未来十年间55岁以上族群会增长近1亿人,与此同时同时90后替代80后逐步成长为消费市场主力,2015年数量已经接近2亿。年轻和老龄人群的消费需求变化将值得深入挖掘,以赢得未来市场进行提前布局。 所以中老年的需求有待挖掘,所以我觉得这里应该要做的是音乐推荐的智能化,让他们享受到人工智能带来的好处;而不是引导他们使用新的功能,这样对他们而言使用、操作成本都大大提升,也增加了他们的记忆负担,明明车机的语音交互只是想要减少用户在开车中的干扰因素,这样和我们想做的事情背道而驰。 五、结合推荐做法、语音交互优化准则,确定最后的方案 好了用户群体分析、需求深入分析已经告一段落,那么就要按照刚开始觉得做的不到位的点,明确最后的方案。 根据二、四种可优化的点和推荐的做法,我们来对比分析下: 做法一是交互引导,其实在整体方案设计中就有考虑如何引导用户了解语音交互,已有方案。 做法二、三,都符合理解用户意图、能够提高可发现性,区别是后续的信息有没有提示用户。不过这里让人纠结的点有以下考虑: 提示用户,他们能够明确知道还能够说什么说法操作,不过说法提示过长,无法再精简,对用户来讲也有一定的记忆负担; 不提示用户,他们可能不了解直接说播放模式的名称也可以操作,这样更简单有效。 我们再来明确设计目标:简单、高效、不分散注意力;所以提示是必须的。明确这些,继续参考资料-《语音界面用户设计》这本书,根据语音用户界面基本设计原则中的异常处理中,增强错误提示有这样的实例对话: 天气APP:我能为您提供天气信息,请问您所在的州和城市是哪里? User:恩…我在斯普林菲尔德。 天气APP:抱歉,我没听懂,请说出所在的州和城市。 用户:哦,我在明尼苏达州,斯普林菲尔德。 这个异常处理有提示用户需要明确的信息,那么我们的方案也可以采用这样的方案: User:切换播放模式 TTS:好的,请问您想切换为哪种播放模式呢? User:随机播放 TTS:已切换,您下次可以直接对我说随机播放。再见~ 这样的方案是不是看起来不是那么智障呢? 做语音交互方案一直处于这样的发现提升点、探索、制定方案、纠结、推翻、不断优化的过程中,关于这方面的教科书般的理论并不是很多,所以这里记录下一个优化小点从发散到制定优化方案的小过程,可能比较琐碎,分享下语音交互的日常工作,也希望能帮助想了解的人对此有点认知。