当前位置:首 页 >动态 >正文
机器人语言“天赋”崭露头角
来源:中国科学报      作者:袁一雪      2016年10月13日       
摘要:随着技术的进步,人们对于智能机器人的要求越来越高,不仅需要是把干活的好手,还得能“唠嗑”。
正文

 

智能机器人如何与人沟通?简单的指令输入早已不能满足这个快节奏的社会,如果能够语音操作该有多好。但是现在大部分智能机器人对于语言的识别与回应并不尽如人意,有些只能识别普通话,有些则只能进行一对一回应,如果是多人聊天模式,或者是在嘈杂的背景下,智能机器人就会“晕头转向”,不知所云。

 

想要解决这个问题并不简单,不过近日,在美国旧金山举行的第四届国际多通道语音分离和识别大赛,中国参赛团队通过完成六麦克风、双麦克风和单麦克风场景下的语音分离和英文识别任务,最终夺冠。而这个技术解决的最重要问题,就包括在噪音环境下的语音识别。此次比赛的获奖团队来自科大讯飞,目前,他们已经把这项技术应用在了名为AIUI的人机交互解决方案上。

 

与机器人对话

 

语音识别技术,小到手机指令大到智能家居控制都有所体现,这让生活变得更加便捷。但这并非语音识别的终极目标。如果在噪音环境下,多个人给同一个智能机器人下了命令,那么后者应该听谁的,又应该如何应对呢?国际多通道语音分离和识别大赛比的就是如何解决这一类问题。

 

若想弄明白多通道语音,先明白语音识别的概念。首先,语音识别是指从语音到文本的转换,也就是让机器能够听懂人说的话。这其中包括两层意思,一是指把用户所说的话逐词逐句转换成文本;二是指正确理解语音中所包含的要求,作出正确的应答。这其中,语音语言学、信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能的交叉学科,是中文信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息。

 

智能机器人对于人的语音的处理,与人类自身理解完全不同,它们先将连续的句子分解为词、音素等单位,在理解语义的规则基础上读取其中的含义。如果说话的主体语音模糊或者口音较重时,智能机器人若没有设置过相关的规则,则无法识别。甚至一个人在认真说话与随意说话时的语调在智能机器人听起来都有区别。再加上采集声音时周围环境的噪声等,都会对机器人产生干扰,进而导致语音识别的误差率增加。而多通道语音识别是指,通过多个麦克风采集声源,再用麦克风阵列技术进行降噪之后,语音识别将会更加精确。

 

科大讯飞AIUI研发总监赵艳军在接受《中国科学报》记者采访时介绍说,AIUI同时拥有的回声消除、置信度判决、连续语音解密等技术,人可以在任何时候对机器进行打断发出需求,AIUI在远场识别方面支持3~5米的识别距离,识别率达到90%。“AIUI还支持方言识别,全双工交互,以及自动纠错的功能。同时,用户在和机器交流的时候发出的非相关语音,机器可以有效拒识。”赵艳军说。

 

AIUI是目前世界上正在开发的人机交互解决方案之一。作为未来智能机器人的主流配置之一,商业化的语音交互平台也是不少IT巨头的研发重点。比如微软的Speech API,是微软推出的包含语音识别(SR)和语音合成(SS)引擎的应用编程接口(API),依托Windows平台,可以朗读英文、中文、日文等。另外一个巨头是IBM,它是较早开始语音识别方面的研究的机构之一,在1984年时,IBM发布的语音识别系统在5000个词汇量级上达到了95%的识别率。

 

自然流畅的交互体验

 

在之前公布的一段视频中,几个人给一个搭载了AIUI的机器人半成品下达不同的命令,先是搜索歌曲,再来问天气,然后订机票,之后还有人要求机器人搜索一首歌手与歌名完全不符的歌曲。虽然只是半成品,但是视频中的机器人不紧不慢地“接招”,还“毫不客气”地指出歌名与歌手信息有误,并善意地提醒是否要重新搜索。

 

“准确的反应归结于硬件与软件的不断更新。”赵艳军回应道。首先要克服的是交互环境的复杂性,比如用户交互时各类的噪声、多样的口音,以及其他不可预知的干扰因素。其次,就是AIUI识别平台中既长又复杂的研发链路,从前端的麦克风阵列技术到后端的语音唤醒、语义理解等服务,需要各组的人员协调、配合、沟通、合作,“这对整个项目团队的要求是很高的”。

 

在硬件方面,AIUI 也从之前的4+1麦克风阵列到最新的6+0麦克风阵列,让其声源定位、回声消除、噪声抑制等能力不断增强,可以从容应对各种复杂的环境。“后续我们将持续优化和完善AIUI,进一步提升效果。如提高远场识别的识别率,增加方言识别的自适性,提高语义理解的能力等,使得AIUI的体验越来越完美。”赵艳军说。

 

智能生活更进一步

 

语音交互技术的进步并不是孤立呈现的,它在智能机器人与人类沟通功能的提升中所作的贡献功不可没。这一贡献体现在智能设备适用人群范围扩大以及领域拓宽。比如,随着智能设备和网络的普及,越来越多的老龄人群、低龄人群、身体残障人群使用智能设备。对于这些人群,触控的交互方式并不方便,语音交互则突破了年龄障碍。甚至,有人曾经预测,语音交互可能会成为继搜索引擎、浏览器、智能手机OS之后,第四代的入口。

 

同时,依托云技术以及大数据的发展,智能语音技术的迭代和优化速度也在加快。智能机器人、智能车载、智能家电等领域的多款产品都可以依托这一技术。

 

在不远的未来,你可以在家中仅通过语音控制家里的一切设备,不仅可以打开空调,关闭台灯,还可以不必走到窗前就能将窗帘打开、关闭。而智能机器人对于你的回应也不再是简单的词汇,它兼顾着音乐播放器、搜索引擎、出行帮手等多重功能,甚至在你无聊时还能陪你聊天。“未来,语音交互、语音识别系统在人机交互领域,面向机器人、智能家居等行业都将进行全面的推广,为人工智能时代奠定人机交互的新标准。而在讯飞开放平台上的各种设备和服务都可以根据这个统一标准,实现互联互通、相互分享和支持,推动第三方开发生态圈的构建。”赵艳军表示。