• linkedu视频
  • 平面设计
  • 电脑入门
  • 操作系统
  • 办公应用
  • 电脑硬件
  • 动画设计
  • 3D设计
  • 网页设计
  • CAD设计
  • 影音处理
  • 数据库
  • 程序设计
  • 认证考试
  • 信息管理
  • 信息安全
菜单
linkedu.com专业计算机教程网站
  • 网页制作
  • 数据库
  • 程序设计
  • 操作系统
  • CMS教程
  • 游戏攻略
  • 脚本语言
  • 平面设计
  • 软件教程
  • 网络安全
  • 电脑知识
  • 服务器
  • 视频教程
  • html/xhtml
  • html5
  • CSS
  • XML/XSLT
  • Dreamweaver教程
  • Frontpage教程
  • 心得技巧
  • bootstrap
  • vue
  • AngularJS
  • HBuilder教程
  • css3
  • 浏览器兼容
  • div/css
  • 网页编辑器
  • axure
您的位置:首页 > 网页设计 >心得技巧 > 网易用研:超全面的语音交互知识科普

网易用研:超全面的语音交互知识科普

作者:武慧新 字体:[增加 减小] 来源:互联网 时间:2018-08-23

本文主要包含界面设计,经验分享,设计规范,语音交互等相关知识,武慧新希望在学习及工作中可以帮助到您

为什么会有语音交互?它适用于什么场景?不适用于哪些?文章为你解读。

一. 什么是语音交互

在没有机器之前,人类最早的交互方式就是语言和动作。如今,在自然交互方式的趋势下,我们又回到了语言这种交互形式上。

原始的交互方式,就是人与人用语言、动作、眼神交互,人与物用动作交互。机器刚出现的时候,并没有人机交互的理念,机器很难操作,需要人去学习和适应。肖尔斯的「QWERTY」键盘会流传开来就是因为这种字母的排列设计可以降低打字速度,避免快速输入造成按键连杆的互相干涉。

二战期间的研究促进了人因工程的发展,机器适应人类、提高人的效率的理念得到发展。在计算机领域,从命令行界面(CLI)进入到图形用户界面(GUI)是一大突破,随后发展到目前的主流操作方式触控,使用手指在屏幕上滑动点按。语音交互界面(Voice User Interface,VUI)、手势、动作、表情交互,甚至脑机接口,都属于自然用户界面(NUI)。

从载体上分,语音交互以手机或电脑为载体,或以其他硬件为载体。除了这些,在客服、教育和医疗等行业也都有应用,如客服语音质检、口语测评等。

△ 语音交互界面的形式

二. 如何评价语音交互

VUI的效率高还是低?

高效的交互方式就是好的交互方式。人机交互在于提高人的使用表现,从速度、准确性、注意负荷三个维度衡量。让用户速度越快、越准确,并且占用最少注意负荷的就是好的交互。我们来看几种情况。

输入文本:效率极高。人说话的速度比打字快,且不需要分心看屏幕,考虑到打字输入也有错误,语音交互在输入文本表现不错。因此很多产品都会在文本输入处加上语音入口。

布置任务:如果我们想打快车回家,用语音助手还是图形界面的打车APP更快?由于路径短,语音助手的理论速度更快,唤醒Siri并说句话,不需要打开APP再点选。在现有状况下,输入任务容易出错。如果命令语言出现偏差,语音助手听不懂你的意思,就会导致任务失败。我们需要思考该怎么布置任务,是说「我要打车回家」还是「打开XX并打车回家」?如果语音助手三次都听不懂命令,你还会继续尝试吗?放弃语音布置任务,只要打开APP,找到熟悉的入口点击操作就完成了。

输出:相比即时的图形反馈,语音是一种不太合格的输出方式,它过于缓慢、效率低下。由于听觉是线性的,我们只能听完一句话再听下一句,而不能像视觉一样瞬间完成图片加工,也不能在文本间扫描跳过,电话语音服务系统就是这种浪费时间的方式。另外,持续听语音还会消耗大量注意和记忆资源。如果客服念完却没有听到想要的内容,重听按0是另一场噩梦。另一方面,我们大部分的信息来自于视觉,但语音方式不能输出视觉信息。

适合双手被占用的场合

语音交互适合在哪里使用?双手被占用时,如驾驶、烹饪、游戏等情况。比如,开车时眼睛需要看路,双手握着方向盘,而且车内环境既安静又私密,这种情况下就适合使用语音交互。另外,在输出层面上,如果视觉通道被占用,听觉通道更适合接收紧急和重要的通知。

门槛极低

语音交互的支持者认为,语音是最自然的交互方式。人人都会说话,门槛极低,尤其对于输出困难人群(如视力障碍人群),他们完全可以无障碍的使用语音交互的形式。但是另一方面,习惯触控的人群不一定愿意转向语音,对新技术有畏难情绪的人群也可能不愿意尝试语音交互这种「新」的技术。

语音可以传递情感,但人还不适应和机器交谈。

语音由于有声调和节奏,相比文字,更能传递情感。问题在于我们不习惯和机器人或者手机对话。据统计,在公共场合使用Siri的人只有3%。我们默认语言是人和人交流的方式,或是和猫、狗这种我们认为有人性的动物交流的方式。当人与物进行交流时,更多会采用动作交互。因此人和手机说话时会有很奇怪的感觉,尤其对于东方人来说,心理障碍可能会更大。

为了减少用户的压力,拉近心理距离,很多智能语音助手会设定自己的「人物形象」。例如Siri高冷又忠诚,微软小冰可爱又贫嘴。另外,语音助手大多是女性声音,也是因为女性的声音听起来更加和善包容。在操作过程中出现问题,如果响起了男性的声音,容易给使用者产生被责备、被批评的感觉。

不过,语音助手也不能太像真正的人。恐怖谷理论认为,对于和人越来越像的东西,我们的好感会上升,但我们厌恶很像人而不是人的东西,例如僵尸。从恐怖谷的理论来看,我们可能会害怕逼真的语音助手。

△ 恐怖谷

不适合在公开场合使用

语音交互不适合在公开场合使用,尤其是图书馆、办公室这类安静的场合。

身份识别问题。在汉堡王的一则视频广告里,售货员最后凑近屏幕,说“OK google, what’s the whoppers?”。「OK google」是安卓手机和Google Home的唤醒词,用户会发现在自己没有下达命令的情况下,设备已经启动并搜索了皇堡,这是设备缺少身份识别系统造成的。为此有产品推出了声纹识别系统以保障支付安全问题,至于声纹验证的可靠性则是另外一个问题。

△ 汉堡王的视频广告

隐私方面也是如此,相比起屏幕,公共场合的输入和输出对话更容易被听到。敏感的金融、医疗和私人信息风险更大。

场景分析

总体来说,语音交互至少需要满足噪音低和私密两条要求。在众多的场景中,车内和家里是满足要求的,加上手机上的移动场景,共3大场景。Mary Meeker在2016年的报告也指出,美国语音使用的主要场景是家里(43%),车上(30%),路上(19%),工作仅占3%。

三. 语音交互发展难点

语音交互系统发展的历史并不短,早在1952年,贝尔实验室就开发了能够识别阿拉伯数字的系统Audrey。1962年,IBM发明了第一台可以用语音进行简单数学计算的机器Shoebox。

△ IBM的Shoebox系统

在发展了半个多世纪后,语音交互仍没有达到成熟应用的水平,遇到的困难贯穿开发到使用流程。

一套完整的语音交互系统有三个典型模块,语音识别(Automatic Speech Recognition,ASR)将声音转化成文字,自然语言处理过程(Natural Language Processing,NLP)将文字的含义解读出来,并给出反馈,最后通过语音合成(Text to Speech,TTS),将输出信息转化成声音。

△ 典型的语音交互系统模块

远场识别难题

第一个难题是获取语音的问题。语音质量高的前提下,才能有较好的语音识别结果。有些公司宣称自己的语音识别率达到了95%甚至99%,但其前提条件往往是声源距离很近、环境特别安静、说话人的普通话特别标准,而非日常的应用场景。

获取用户语音,根据距离分为近场识别和远场识别两种情况,后者难度更大。

手机上的语音交互是典型的近场,距离声源近,语音信号的质量较高。另一方面,采集语音的交互相对简单,有触摸屏辅助,用户通过点击开始和结束进行信号采集,保证可以录到用户说的话。

远场语音交互以智能音箱为代表,声源远,不知道声源具体位置,环境中存在噪声、混响和反射。单麦克风无法满足要求,需要麦克风阵列支持。用户可能站在任意方位,被语音唤醒后,需要定位到声源位置,向该方向定向识音,增强语音并降低其他区域和环境的噪声。

△ 远场识别示意图(来源:雷锋网)

语音识别正确率

实际工作中,常用的指标是识别词错误率(Word Error Rate)。微软语音和对话研究团队负责人黄学东最近宣布微软语音识别系统错误率由5.9%进一步降低到5.1%,可与专业速记员比肩。进步来自于两方面,一是技术,包括隐马尔可夫模型、机器学习和各种信号处理方法,另一方面是庞大的计算资源和训练数据。

语义识别

如果你和语音助手进行过对话,会发现其语义理解还停留在固定模式识别的套路上,根据用户话中特定的词做出反应,不一定能给出正确的回答。

约翰·希尔勒提出过「中文房间」的思想实验,一个不懂中文,会说英语的人在一个封闭房间中,房间里有一本英文手册告知如何处理相应的中文信息。用中文写的问题从窗户递进房间里,这个人对照手册进行查找,将对应的中文解答写在纸上并递出去。房间外的人可能会觉得这个人很懂中文,实际他一窍不通。训练机器来理解语义类似于这个过程。通过训练,我们让机器的反应接近于能够理解,但无法像人类一样真正理解语言。

语言是人和人之间交流的工具,某种程度上适合人的认知系统,如何期待机器更好的理解我们?

目前来讲,遇到的问题至少有分词、歧义和未知语言处理。中文不像英文单词有空格分开,而且歧义性高,对AI有更高的要求。例如「南京市长江大桥」就可以分

您可能想查找下面的文章:

  • 一个好的用户界面设计的37个技巧(图文)
  • 手机APP用户界面设计的10点建议
  • 我回顾了App Store 十年来的视觉变化,告诉你设计趋势是如何演变的!
  • 8年资深设计师:间距不会调?掌握这一个点,从此不再迷茫!
  • 基础科普!重复与突变在产品设计中的应用
  • 饿了么高级设计师:界面视觉设计 5 要素之字体篇
  • 超全面总结!黄金分割在界面设计中的应用
  • 如何提升界面品质感?来看这篇超全面的总结!
  • 新手科普文!什么是用户界面和体验设计?
  • 浅色还是深色?教你选择合适的界面配色方案!

相关文章

  • 2018-08-23设计师越来越多,但为什么APP设计得越来越像?
  • 2017-08-06表单元素垂直居中完美解决方案
  • 2018-08-23酷站两连发!25万张高质量免费大图+在线图片压缩工具
  • 2018-08-23如何审度一个东西的工艺和设计?深泽直人给出了5个维度
  • 2018-08-23想给用户提供帮助?先掌握这5个层级!
  • 2017-08-06Bootstrap之所以广泛流传的11大原因
  • 2017-08-06网站中的关于页面介绍内容怎么写
  • 2018-08-23Facebook 产品设计师:如何提高自己的设计审美?
  • 2018-08-23商业设计比赛中如何提升获奖率?高手总结了这4个实用小技巧
  • 2018-08-23Google对话式交互规范指南(八):通过确认和应答给予用户信心

文章分类

  • html/xhtml
  • html5
  • CSS
  • XML/XSLT
  • Dreamweaver教程
  • Frontpage教程
  • 心得技巧
  • bootstrap
  • vue
  • AngularJS
  • HBuilder教程
  • css3
  • 浏览器兼容
  • div/css
  • 网页编辑器
  • axure

最近更新的内容

    • 两分钟认识一款把 Sketch 变成 Principle 的插件:Diya
    • 在配色这件事情上,总会有一些有趣且有用的小技巧
    • BAT都在使用的设计创新方法 ,现在手把手教你做!
    • 超全面!色彩无障碍设计之「对比度」的探索
    • 网站视觉设计中的信息传达的作用以及方法介绍(图文)
    • 实用干货!如何进行一场高质量的UI设计评审?
    • 帮助新手熟悉产品的向导程序,遵循着怎样的设计模式?
    • 微云使用效率大幅提高的背后,腾讯设计师这样做改版!
    • 网页设计中的tab应用的两种类型
    • WEBAPP开发技巧小结(手机网站开发注意事项)

关于我们 - 联系我们 - 免责声明 - 网站地图

©2020-2025 All Rights Reserved. linkedu.com 版权所有