语音交互实例从切换播放模式细节想到的

　　这一段项目时间不是很紧张，比较有时间去探讨一些细节的问题，有些东西可以做有些东西可以不做，去探究背后的原因是一件很有趣的事情。
　　一、简单介绍VUI
　　想必大家对于语音交互并不是很了解，而车载方面的语音交互更是陌生。这里我先来科普下大背景，至于对这个方面比较感兴趣的可以查找一下资料，想必其他的文章会很详细的介绍理论。这里我先讨论在实际应用当中的需求探索。
　　首先语音交互是从交互式语音应答系统（Interactive Voice Response，IVR）而来，它是通过电话来执行任务，和10086不同的是，它能够识别人们说的话，由于擅长处理带有大量信息的复杂句子，应用场景比较广泛。
　　后面智能手机高速发展，于是诞生了VUI（Voice User Interactive ），像Siri、Cortana都是比较典型的应用，语音交互一直被称作＂最为自然的交互入口＂，优点和缺点都很明显。
　　车载场景的语音交互，有个很明显的优势：无需司机分心操作，直接语音指令即可达到想要的目的。所以在车内使用语音交互，任务型需求会占大多数。
　　二、实际应用中遇到的问题
　　今天看到之前的产品文档中有这样一个设计：
　　当前的设计都由于技术的限制，不支持的说法不能进行下一轮的对话，所以这里在反馈完毕后直接退出语音。并没有什么大问题，很多车机语音交互直接提示不支持的说法，后面的说法提示都没有。但这个方案对于用户来讲，依旧大大打击了他们使用语音的积极性，这样的设计至少有下面几点不是很合适的点：
　　在人工智能不是很智能的情况下，尽量理解用户意图并允许用户继续交谈。
　　功能点设计要考虑可发现性，对于语音交互，看不到的交互方式更要提高它的可发现性。
　　已知的对话原则中有一点：方式准则，即说话需清晰明了，这里可以做简化，但也需要针对不同的用户群体。
　　三、从用户出发，了解说出这句话的初始意图
　　在我看来语音交互是一个比较繁琐的设计过程，因为不同场景用户会说什么样的话很难预测，所以我会选取几个最常见的使用场景，然后为每个场景按照最优路径（同样结合业务流程）写出示例对话，同时还要加上异常情况。
　　这个就是在切换播放模式时的一种异常情况：
　　User：帮我切换到随机播放/随机播歌/按照随机播放歌…
　　TTS：随机播放
　　（TTS：从文本到语音，Text To Speech，一般是由产品、交互设定的内置文本，当用户说了某句话命中某个说法，那么就播报该说法对应的反馈语。这整个过程就算做是一个完整的对话交互设计了。）
　　再来看看用户为什么会这样说＂切换播放模式＂吧：
　　在手机APP上，切换播放模式，都是点击切换到自己想要的播放模式，三个播放模式是固定的顺序，所以在车机上用户也会想要延续这样的操作习惯，才会有这样的说法。
　　知道播放模式有哪些，但是不知道车机上语音对音乐的操控有哪些，所以试探性的尝试。
　　不清楚有哪些播放模式，所以只是想看下有哪些播放模式
　　不论从哪个出发点，最终的目的导向都是：想要切换播放模式。
　　四、根据不同意图，对用户进行分类，寻找更好的解决方案
　　根据上面三种情况，其实可以分为：
　　对音乐比较熟悉的用户，对车机端的语音控制探索使用。
　　对音乐不怎么熟悉的用户，对车机端的语音控制探索使用。
　　再来看看语音切换播放模式的需求想要解决的问题：
　　无需关注界面，直接下达语音指令达到目标；
　　缩短用户操作路径：比方说手机上切换播放模式，有时候需要点击两次；而车机上直接下达明确指令，直接完成。
　　来，先来分析上面两种用户群体的更深层的用户定位。
　　1.对音乐比较熟悉的用户
　　手机上的操作大部分是因为在播放详情页的操作按钮过多，所以把播放模式收入到一个按钮中去，下面是不同的音乐界面，特意选择了一些不常用的音乐App，出乎意料酷狗是可以选择，基本其他的应用都采用点击切换播放模式的交互；
　　再深入一点，手机用户切换播放模式的时候分两种场景：
　　第一种，熟悉播放模式的人，在操作之前会有一个心理预期，所以会设定为她想要的播放模式，而播放模式的切换最多点击三次，用户成本不会很高，所以这也是大部分手机APP将它收入一个icon当中的原因；
　　第二种，不是很熟悉的人，他们在操作的时候可能会想了解有什么播放模式，最后再去确定最终的心理预期，所以点击会超过三次。
　　综合上述，不论是熟悉程度如何，都会有一个既定的心理目标，有比较明确的操作意图。
　　而对音乐APP比较熟悉的用户群体基本集中在：18-40岁左右，他们基本上都知道有这三种播放模式，所以可以有以下做法：
　　做法一：经过刻意引导，让他们的意图更为明确，这样就不会出现这样的说法；直接下命令切换，也能够减少用户的操作路径，降低用户的操作成本。
　　做法二：先完成用户目标用意：切换播放模式，再提示用户有什么播放模式可以切换，让用户逐渐熟悉
　　做法三：完成用户目标用意，不进行提示，三种播放模式可能用户就是比较懒，不想说出具体的播放模式名称，这样只记住一个说法即可达成。
　　2.对音乐不怎么熟悉的用户
　　我专门找了我亲爱的爸比，询问了下他的中老年开车朋友们，年龄分布在40-50岁，大部分在45岁以下。下面是一些聊天记录。
　　我的问题：你们在播放音乐的时候，知道能够切换播放模式么？如果知道，那你们知道有几种播放模式可以切换么？请说出你们印象中的名字。在这个过程中，不要打开音乐APP查看，靠自己的记忆～
　　很出乎我的意料，可能调查的目标用户在一线城市会结果又不一样。但是生活在一线城市的中老年人人数又有多少呢？很大部分的中老年人都生活在非一线城市，对于他们而言，简单的播放歌曲就能满足他们对音乐的需求。
　　但是，有没有必要像这一部分的人推送这个功能呢？
　　再来看会使用智能车机的人群分布：（网上扒来的数据，随意看下）
　　有65%的中国消费者愿意接受车联网功能，高于欧洲国家的40%和北美的32%。中国消费者也更加愿意尝试娱乐资讯方面的功能，比如社交媒体和车载视频及音乐。
　　未来十年间55岁以上族群会增长近1亿人，与此同时同时90后替代80后逐步成长为消费市场主力，2015年数量已经接近2亿。年轻和老龄人群的消费需求变化将值得深入挖掘，以赢得未来市场进行提前布局。
　　所以中老年的需求有待挖掘，所以我觉得这里应该要做的是音乐推荐的智能化，让他们享受到人工智能带来的好处；而不是引导他们使用新的功能，这样对他们而言使用、操作成本都大大提升，也增加了他们的记忆负担，明明车机的语音交互只是想要减少用户在开车中的干扰因素，这样和我们想做的事情背道而驰。
　　五、结合推荐做法、语音交互优化准则，确定最后的方案
　　好了用户群体分析、需求深入分析已经告一段落，那么就要按照刚开始觉得做的不到位的点，明确最后的方案。
　　根据二、四种可优化的点和推荐的做法，我们来对比分析下：
　　做法一是交互引导，其实在整体方案设计中就有考虑如何引导用户了解语音交互，已有方案。
　　做法二、三，都符合理解用户意图、能够提高可发现性，区别是后续的信息有没有提示用户。不过这里让人纠结的点有以下考虑：
　　提示用户，他们能够明确知道还能够说什么说法操作，不过说法提示过长，无法再精简，对用户来讲也有一定的记忆负担；
　　不提示用户，他们可能不了解直接说播放模式的名称也可以操作，这样更简单有效。
　　我们再来明确设计目标：简单、高效、不分散注意力；所以提示是必须的。明确这些，继续参考资料-《语音界面用户设计》这本书，根据语音用户界面基本设计原则中的异常处理中，增强错误提示有这样的实例对话：
　　天气APP：我能为您提供天气信息，请问您所在的州和城市是哪里？
　　User：恩…我在斯普林菲尔德。
　　天气APP：抱歉，我没听懂，请说出所在的州和城市。
　　用户：哦，我在明尼苏达州，斯普林菲尔德。
　　这个异常处理有提示用户需要明确的信息，那么我们的方案也可以采用这样的方案：
　　User：切换播放模式
　　TTS：好的，请问您想切换为哪种播放模式呢？
　　User：随机播放
　　TTS：已切换，您下次可以直接对我说随机播放。再见~
　　这样的方案是不是看起来不是那么智障呢？
　　做语音交互方案一直处于这样的发现提升点、探索、制定方案、纠结、推翻、不断优化的过程中，关于这方面的教科书般的理论并不是很多，所以这里记录下一个优化小点从发散到制定优化方案的小过程，可能比较琐碎，分享下语音交互的日常工作，也希望能帮助想了解的人对此有点认知。
网站目录投稿：天曼