南迪尔:?Hi 大家好,我叫南迪尔。我大学毕业后在工业设计领域比较出名的设计公司 LKK 工作,??然后12年加入百度,?主要负责百度云的交互设计,后面成为智能硬件团队的设计经理,负责的项目包括小度Wifi、百度路由器、智能手表Rom 等一系列智能硬件。??2016年6月份加入小米探索实验室担任设计总监,负责小米路由器、小米VR 还有最近比较火的小米AI音箱小爱同学。
△ 图源:maryanne
志荣:?你觉得??14年做的百度路由器和现在做的小米路由器有什么不同吗??
南迪尔:?其实??很多地方还是比较相似的,例如大家都在追求更简单的用户配置流程,??用户对于互联网的??主要需求依然是一个稳定的网络,这个需求没有发生变化。?
志荣:在我的理解里,?用户的全部网络流量都要通过路由器,而且它是24小时开机的,我觉得是不是只要加个语音功能它就能成为中控系统?,后面就没有智能音箱的事了?
南迪尔:路由器和智能音箱都是中枢系统。两者的区别在于路由器是一个网络中枢,?所有的东西都要通过路由器来连接到互联网。?智能音箱是一个控制中枢,用户通过它来控制其他设备。你刚刚说的可以认为是理想状态或者实验室状态。但实际情况是,如果增加了语音功能,那么会有多少用户愿意花钱买这个路由器?比如说,现在一个路由器的价格大概是100块钱,如果增加一个语音功能,整个产品的价格要接近200元。如果这个路由器可以通过语音控制家庭里的 IoT 产品,问题来了,有多少家庭家里是有 IoT 设备的?如果增加了这个语音功能,这100块已经把没有 IoT 产品的所有用户排除在外,而且购买这款产品的人群 IoT 需求到底有多少?用户有可能前两天用起来很爽,但是到后面可能只是用语音来开个灯。这些小需求能不能对得起用户多花的100块?
志荣:有道理。我想了解一下,这几年你都在做智能硬件的项目,你觉得你在14年和18年做智能硬件设计时有什么变化吗?
南迪尔:我在百度的时候,严格来说,当时的百度硬件积累相对较少,基本将硬件外包给其他厂商,所以当时的我对硬件的把控力度相对较弱,而且了解的比较少,所以基本都是在做软件层面的设计。但到了小米之后,我发现小米的硬件和软件是属于同一个部门,而且小米在硬件上的积累很深。在小米的几年里,我对智能硬件有更深入的理解,包括硬件的组成部分、硬件的定义、软件和硬件的连接、还有它们之间是怎样交互的,同时我能对整个用户体验流程能看得更加完整。我们做设计的时候甚至可以影响硬件的设计。以智能音箱的配置过程为例子。当智能音箱的软件和硬件都摆在你面前的时候,你用手机配置音箱的过程中音箱会不断给予你反馈,这会导致你的注意力在手机和音箱之间来回切换,我们觉得这不是一个好的设计。我们认为用户的注意力应该集中在一个地方,所以我们有意地把用户注意力先集中在手机上,音箱作为辅助,它只要发出确认的声音就行了。当用户用手机配置成功后,再把用户的注意力转移到音箱上进行互动和操作。如果不这么做的话,用户注意力来回切换会导致整个配置流程很长,也会分散用户的精力。
志荣:那你们当时是怎样考虑智能音箱上的反馈设计的?
南迪尔:当时设计小爱同学的时候,灯光反馈更多是辅助功能。灯光亮的时候其实在给你一个信号,意思是「你可以说话了」。灯光是特定的语言,它在模拟两个人对话过程中对方的眼神:对方的注意力是不是在你身上,是的话你就可以说话了。当然这时候的反馈不只是灯光,还有声音的反馈。声音反馈是非常必要的,原因是当你背对着它的时候或者不看它的时候通过声音反馈就知道可以操作了。我们第一版的声音反馈设计用的是「嘟」,就像小爱同学冲到你的身边;第二版我们将「嘟」改成「在,我在」,这能让人感觉到更温暖。还有我们的灯光定义了好几种模式。例如说「小爱同学」,这时候小爱同学发出的是灯光表示她在响应你以及在聆听;当你说完指令,灯光发生的变化代表她在思考;当她给予反馈时灯光会有另外一个变化。这套灯光设计其实仿照了一个人的「我在听你说」、「我在思考」、「我在说」这三种状态。
志荣:你怎么看待最近 Echo show 增加了屏幕?语音交互是否需要屏幕?
南迪尔:这是肯定的,语音交互和屏幕结合是一件好事。我之前在知乎回答过一个问题,语音只适合有明确意图的输入,也就是说可以方便地问问题,但语音不适合输出,语音输出的内容太有限了,因为它是一维的,用户根本记不住。我当时在知乎上举过一个很让人崩溃的例子「中文请按1,English press 2,金葵花客户请按3」,当听过一遍后,我要按哪个来着,忘了,我还得重听一遍。音频选项你是记不住的,顶多就4个选项;但是视觉界面不一样,12个选项都没有问题。
志荣:的确,我当时买了小度在家和小爱同学,但我发现有屏幕的小度在家能做的事情会多很多。
南迪尔:你最近会用小度在家和小爱同学来做什么?
志荣:没有了,好久没用过。
南迪尔:现在小爱同学更多是用来放歌,问天气,问生活中的一些百科知识,还有 IoT 设备的控制,我觉得这是大部分人的场景和需求。
志荣:对,如果我家都没有 IoT 产品,我都不知道我买一个智能音箱来干嘛。
南迪尔:用来放歌。
志荣:如果我连这个需求都没有,那怎么办。
南迪尔:如果你连听歌的需求都没有的话,那你为什么要买一个音箱回家呢?这说明你是一个尝鲜用户。买智能音箱的基本用来听歌。
志荣:如果智能音箱解决的主要需求是播放音乐,没有其他需求会不会导致没有人去研发其他功能,那语音交互怎么发展?我觉得语音交互的发展会受到很大的局限。
南迪尔:语音交互很早就在手机上有了,但没有爆发起来,是因为在公共场合的噪音比较大,人们在公众场合使用语音交互效率不一定高;还有一些人觉得对着一个手机说话会有点傻;还有是隐私的问题,所以语音交互的场景是有限的。之所以智能音箱能爆发起来,是因为它在家里,家里比较安静以及它是私密的空间。如果「隐私」和「不适感」这两件事情是人们心理接受程度问题的话,随着时间发展,人们会慢慢被接受。因为语音和搜索相关性比较高,输入效率非常高。当一个高效的事情能克服不舒适感或者隐私问题,它会有市场的。
△ 图源:maryanne
志荣:那你觉得移动互联网的设计和语音交互设计有什么区别?
南迪尔:移动互联网设计和语音交互在一些基本的、隐性的设计上是没有区别的,比如说你都要考虑场景和用户的情绪。但语音交互的设计有点不一样,就是它没有视觉部分,这会导致它是一个开放性的提问。视觉界面的好处是你能看到边界,你能进行引导;但语音是没有边界和引导的,所以你要学会创造引导。比如说设置一个闹钟,视觉界面很简单,几个时间控件就能把你完全限制在这个功能里。但用语音设置闹钟,我可能说「小爱同学我要设置一个闹钟」,然后它会问你「那你要设置几点呢?」,「八点」,「请问是早上八点还是晚上八点」,「晚上八点」,「好的,设置完毕」,语音交互会通过多轮对话把你的发散范围逐步缩小到这个任务上。
志荣:的确,我之前也想过这个问题,视觉界面能限制用户的想法,语音交互就不能,我们只能在语音上创造限制。要不我们再聊一下 VR 吧。2016年被称为 VR 的元年,突然间17年又变成人工智能的元年,你怎么看待2018年 VR 的发展,它是不是不温不火?
南迪尔:我觉得 VR 的发展是正常的。新起的行业第一波总会吹成泡沫,因为投资市场不是冷静的。第一波泡沫过去后留下的人会继续推动这个行业的发展。现在行业的发展还是在硬件的成熟和积累阶段,包括现在的 Oculus Go、Vive,虽然它们现在很不错了,但它们不是最终形态。当它们逐渐接近最终形态的时候,会有越来越多的软件加入,有越来越多的人认识到它们的价值然后依赖于它们,最后他们才能形成最终的形态。
志荣:那你觉得 VR 跟移动互联网的产品有什么本质的区别吗?
南迪尔:移动互联网的产品我们可以分两类,一类是 Save Time,它是省时间的,例如外卖、百度;另外一类是 Kill Time,它是杀时间的,例如抖音、爱奇艺、今日头条。VR 目前来看更多是杀时间的,基本不包括省时间这个类别。VR 本身的硬件形态就决定了它没有手机更省时间,因为你要戴上笨重的头盔,在里面看不到你的手指和没有合适的键盘,你的输入效率并不高;而且现在的头盔携带性不好,不能随身到处带着。如果 VR 想像移动互联网这样爆发的话,它的硬件形态一定要比掏手机更省事;而且价格很低。
志荣:我15年的时候写过一篇文章来分析 VR 和 AR 哪一个会先火起来进入大众的视野,最后我选择了 AR。我觉得 VR 体验不只是依赖视觉和听觉,你的触觉、嗅觉都是息息相关的。但是 AR 不会有这么多的限制,它不会有这么多的技术瓶颈在这里,只要你搞定了图像识别基本就够了,你觉得呢?
南迪尔:我觉得手机普及速度很快