谷歌是怎么设计语音界面的？这篇总结了对话设计六原则！

作者：字体：[增加减小] 来源：互联网时间：2018-08-23

本文主要包含对话式交互,经验分享,语音交互等相关知识,希望在学习及工作中可以帮助到您

编者按：新时代的界面将会突破现有的格局。界面将不再被滑动、轻触和点击局限，取而代之的是更自然细腻的语言呈现形式。用于GUI（图形用户界面）的设计技法和设计语言在语音交互这个全新的领域不再适用，VUI（语音用户界面）设计的新浪潮将基于「对话」这个我们最先学会而且最擅长的交流方式。

「对话」这种媒介既复杂又系统，定义原则比小学生的校训还要微妙、压人。

例如，不要用「而且」作为对话的开场，或者不可以打断别人讲话。我们与其他人对话交流时可以自然地应对各种复杂情况，这几乎成为了我们的第二本能。但是，如果我们不能真正理解「对话」的本质和其内在机制，就贸然开始设计人机对话，得到的用户体验通常是令人抓狂的。

语音是一种个人标志，体现了一个人的社会身份，也因此人们对它的标准极高。用户在使用过设计不佳的VUI后反映：这些VUI让他们觉得愚蠢、可笑，甚至觉得被科技愚弄了。这些用户也因此表示不愿再次使用。事实上，这些都是可以避免的。

下面我将详细给各位VUI设计师们介绍这六项原则，而这些原则正是日常对话的延展。它们可以辅助设计师完成对话设计，并且引领VUI设计师进入以用户为中心的界面设计新时代。

一.? 给VUI赋予形象

你可能觉得一个简单的语音应用不需要形象，但这不是需不需要的问题。对比下面这两个日历应用的例子：第一个例子展示了未经设计的助手形象（persona）；第二个则是具有经过设计的形象。

对话1

用户：在日历里添加一个预约

VUI：请说出「日期」

用户：8月2日

VUI：请说出「开始时间」

用户：1点

VUI：请说出「持续时间」

用户：哦，一个小时左右

VUI：请说出「主题」

用户：性能评估

VUI：确认中，8月2日1点，持续一小时，是否正确？

用户：是

VUI：该事件现已在您的日历中

未经设计的VUI形象。

对话2

用户：在日历里添加一个预约

VUI：没问题，哪一天的？

用户：8月2日

VUI：谢谢，什么时候开始？

用户：1点

VUI：那么，预计要开多久？

用户：哦，一个小时左右

VUI：最后，我只需要记录一个简短的标题

用户：性能评估

VUI：搞定！让我重复一遍：8月2日1点，持续一小时，我记得对吗？

用户：对

VUI：赞！已经在你的日历上了

这个VUI的形象是经过设计的。

不管在不在你的计划之中，所有的语音都会映射出一种形象。就像第一个例子，按说应该是没有形象设计的VUI，却在「友善、乐于助人」等性格属性上评价不高，在「无聊」上的得分却很高。

经过几十万年的演变，我们人类无法不用性格特征来评价一段语音，就连智能手表或GPS系统的语音也逃不过这种评价。这可不是主观观点，这是有据可查的事实。社会语言学家（如，拉波夫 1964 ①）的研究表明即使是极少的语音样本，也会让人产生对于演讲者性格、形象方面的印象。我们早已进化成可以根据人的声音来总结评判别人的专家。

曾有一个让人印象深刻的研究(Giles & Powesland 1975 ② )，研究者要求一些教师根据三样东西来评估8名虚构的学生：一个书面文字样本，一张照片和一段语音演讲样本。研究结果令人惊讶，由语音样本产生的有利印象压过了书面文字和照片的负面印象。相反，学生的语音样本带来的不良印象则会压过其他两个内容带来的有利印象。

其他研究表明，我们依靠语音交流在很多方面评价别人：友善度、诚实度、可信度、智力、教育水平、守时与否、慷慨度、浪漫程度、优越程度和就业适合度等。总之，语音具有很大的能量。

小结

不要让你VUI的形象未经设计、随意地产生。从最开始就要瞄准创造最理想的形象来代表你的品牌。它们是什么样子的？它们听起来是怎么样的？最重要的是，它们如何行动？在体验落地过程中，以形象设计作为根基并确保形象具有一致性。

更多有关形象设计的信息请访问 Actions on Google，代码实验室：Crafting a Character。

二. 推进对话

在日常对话中，似乎有很多疑问句都可以用简单的肯定或否定来回答。但实际上，它们询问的信息远不止肯定或否定。下面有两个这样的例子：

对话3

A：你知道派对会有谁来参加么?

B：知道。

这个问题想要得到的答案并不是简单的肯定或否定。

对话4

A：可以给我唱首歌么?

B：不可以。

只用「可以」和「不可以」来回答这个问题并不满足对话性的预期。

你可能会觉得奇怪，这些作答的人为什么显得很不配合。这是因为在这两段对话中，作答的人违反了一个对话核心原则 – 量的准则（Maxim of Quantity）③。

根据这个对话行为原则，说话的人应向听者提供满足推进对话交流所需的信息量。如果作答的人只按字面意思回答一个问题，而没有提供可以推进话题的有效信息，对话互动是无法形成的。在上面的例子中，我们永远也无法知道谁会来参加派对或者拒绝唱歌的充分理由。这些说话的人吊了我们的胃口，虚拟助手也有可能做出和他们一样的事。比较下面两种处理因为价格上浮引起用户不快的方法：

对话5

用户：好，可以支付了。

VUI：目前这个时间，送餐费暂时调整为7.99美元，因为美味面条家接单量过大。你还想继续进行支付吗？

用户：不了……

这个VUI没有成功将对话向前推进，迫使互动嘎然而止了。

对话6

用户：好，可以支付了。

VUI：我必须要告诉你，这个餐厅今天晚上8点到9点的运费是7.99美元，你还想继续下单吗？

用户：不了……

VUI：这样的话，这附近还有一些类似的餐厅。你感兴趣吗？

用户：好，为什么不呢。

VUI：好的。附近还有另外两家面馆：马尔文区的涂鸦面馆，另外一个：谷流的斯塔意面。

这个VUI为用户提供了更多的选择，像自然的人类对话一样保持对话的持续推进。

显然，第二个VUI的形象更得力，更叫人喜欢。但是，不是只有你的智能助理具备推进对话的社会智慧，你的用户也有，而且这种本能是无法被压制的。以下是用户尝试推进对话的例子，用户的行为就好像他们正与人类交谈一样：

对话7

产品：那么，几个人要去？

用户：呃……有我妻子和我。

这个用户希望VUI可以从他给出的个人信息中推算出人数。

这个时候，如果识别机制被设计成只识别数字的话，例如「两个」，用户就会收到输入错误的提示。而这个用户只不过是提供了更多的信息。如果识别器实在无法处理这样的回答，可以尝试用轻松愉悦的语言风格将对话引回正轨。比如，「对不起，有多少人？（上升语调）」。

研究表明：识别出错时，用户通常只需要一个简短的提示。没有必要强调错误，也不要用机械而俗套的提示语；例如「很抱歉，我不明白。现在，请用数字说出你们的人数。」你可以说：「比如，二个」。

小结

设计对话流时不能只关注字面意思。你需要尝试预判：VUI什么时候应该提供更多信息，什么时候需要识别来自用户的附加信息。这样才能保持对话的推进。你还需要意识到，业界所谓的「识别错误」实际的根源在于：人类乐于（在对话中）提供更多的信息，推动交流。

三. 简短、有效

语音与文字不同，语音是伴随着时间流动的。时间越长，听者就越难理解。我们大脑能处理的信息量是有限的，一旦超出，就会对短期记忆造成负担。「听」往往被认为是被动的；相反「说」被认为是主动的，高效的。事实上，听也会耗费不少精力。所以你的VUI需要给听众休息的时间，也给他们一个机会说话，这是很重要的。比较这两个例子：第一个VUI给听者压迫感，第二个则更加简洁。

对话8

VUI：

天空航空47航班下午1点从纽约肯尼迪机场起飞，下午1点45分到达波士顿罗根机场；行仓航空234航班下午2点15从纽约肯尼迪机场起飞，下午3点45到达波士顿罗根机场；蓝鸟航空260航班下午3点45从纽约肯尼迪机场起飞，下午4点30分到达波士顿罗根机场；天运航空52航班下午5点从纽约肯尼迪机场起飞，下午5点45分到达波士顿罗根机场。你想要哪一个？

用户：……哈？！

这个VUI给用户的信息量大到令人窒息。

对话9

VUI: 向你展示4个航班：下午1点、2点15、3点45 和下午5点。你想听其中一个的更多信息吗？

用户: 2点15的那个。

VUI：好的。下午2点15，行仓航空234航班，从纽约肯尼迪机场起飞。下午3点45到达波士顿罗根机场。你要预订吗？

用户: 啊，好啊。

这个VUI保持简短、扼要并提供了更自然、愉悦的交互。

与书面文字的永久性相反，

谷歌是怎么设计语音界面的？这篇总结了对话设计六原则！

一.? 给VUI赋予形象

二. 推进对话

三. 简短、有效

您可能想查找下面的文章:

相关文章

文章分类

最近更新的内容