12月4日,中国电子科技集团公司第三研究所(简称“中电三所”)联合中国电子学会消费者电子分会联合发布了,以“娱心悦耳,音智双全”为主题的智能音箱评测发布会。会上发布了目前市场关注度较为集中的五款智能音箱的评测方法与结果。此次评测以中电三所下属国家广播电视产品质量监督检验中心、北京中电慧声科技有限公司、三所科技创新中心语音与智能声学实验室为技术支持,针对智能音箱交互性水平、声性能、拆机分析三大方面展开了深度评测。
智能音箱须具备扩声、语音交互、信息传输以及智能化附加功能。本次评测选择了叮咚、小米、若琪月石、问问音箱、天猫精灵等五款主流智能音箱,中电三所作为国内权威电声科研机构,组织行业专家设计评价方案、依托专业的实验设备和自身丰富的行业经验,创新评测方法,从交互性、声性能、拆机分析三维度对样品进行了评测。
在交互性能客观测试方面,通过主客观两个角度,分别从识别准确率、响应时间、唤醒率,以及交互体验、对话判断、执行响应、学习深度、主观感受八项评测项目对智能音箱交互性水平做出准确评价。更创建了自有语料库,兼顾关键词命令操控和网络智能检索,根据发音人性别、年龄、地域构成不同,录制了35 位发生者音频,经过后期制作完成 2100 余条语料库命令,最终筛选出1000余条语音命令作为客观测试信号源,使评测结果更客观更科学更具参考价值。
智能交互性能客观分别在三种状态下进行,一种是不加任何干扰、噪声;二是只加干扰、不加噪声;三是只加噪声、不加干扰。如下是三种状态下五款智能音箱的识别准确率测试结果。
可以看到在干扰的状态下,对音箱的语音识别率准确性影响是很大的,导致它识别率下降、变差。在测试结果中,分别给出了平均值和中位值。由于测试样本声音差异较大,导致测试结果较为离散且有极端值,甚至0%和100%的识别率出现,极端值比较大,所以用平均值代表整体趋势。离散和极端值的出现,从也反映出本次评测样本选择比较合理,没有全部选择标准普通话样本。
响应时间测试使用语料库中标准普通话语音命令,测试结果选取了响应时间的最大值而非选平均值,因为考虑到响应时间越长用户使用体验越差。从测试结果上看,在网络流畅的状态下,不同的测试环境对响应时间的影响并不明显,这与各个音箱介入软件的平台完全语音语义理解部分功能有关。
唤醒率与智能音箱硬件麦克风阵列、软件算法关系密切。在2.5米处净信道、干扰状态、噪声状态下唤醒率均为100%,4米处唤醒率下降。通过拉距测试得知,距离影响唤醒的成功率,并且在唤醒之后的语音识别率更低。例如:用户说“天猫精灵”,它回答,用户再问它问题,它可能就无法正确回答。鉴于目前的情况下,我们要真的实现“动口不动手”,还是要离音箱更近一点,声音再大一点。
交互性主观评价采用单刺激连续质量评价方法(SSCQE方法),评价交互体验、主观感受、对话判断、学习深度、执行响应等五项评价指标,五项加权后标准偏差为S,经测试五款音箱标准偏差分别为:S叮咚=0.79,S问问=0.45, S若琪=0.34,S天猫=0.36, S小爱=0.57。
智能交互性能评测结论显示,多声源干扰对于智能音箱语音识别能力影响很大,如何甄别确实需要科学算法解决,且掩蔽效应如何合理设计优化算法,是智能音箱R&D正在努力的方向。当前各智能音箱支持的智能搜索类语音命令库范围还需要极大升级,很多命令都是回复,“不知道”或者“目前无此功能”。这直接导致用户的厌烦情绪,间接影响了智能音箱发展前景。智能音箱的联网优化需要进一步提高。