音频质量评价标准及测试方法

音频质量评价当前主要分三种评价标准：

1. 主观评价:主要是依靠人为的听，然后按照5分或者7分制打分。

2. 客观评价—基于指标：主要依靠仪器测试响度、频率响应、灵敏度等指标；

3. 客观评价—基于模型：依靠模型和算法，模拟人工打分。

举一个例子，前面走过来一个美女，三个人就开始评价了。

A：她是我们班的，是班花，经过了四十多人投票选出来的，肯定是美女，

这就是主观评价，但是评价的主体还是太少。

B：我有她的个人资料，包括身高体重三维，从数据上看，是个美女。

这就是基于指标的评价，但是数据太生硬。

C：我有一套人工智能美女评价系统，模型是来自人类最顶尖、最苛刻的美女评价标准，已经评价了数百万的美女标准，并且给出了打分，这套模型与人类主观评价有99.7%的相似度。

这就是基于客观模型，同时兼具了主观和客性。

主观评价

(一) 引用的标准

主观评价主要参照国家标准《YDT2309-2011音频质量主观测试方法》，国家标准主要也是参考国际标准中的主观评价：ITU-R BS.1116-1997。国际标准中比较常用的有：ITU-T P800（电话传输系统语音质量主观评价）、ITU-T P830（电话宽带和宽带数字语音编解码器主观评价方法）、ITU-T P805 （对话质量主观评价）。

(二) 测试规则

标准中的测试规则主要定义几点：

1) 参考的标准音频和被测试音频间隔测试，连续重复4次；

2) 音频源采用15~20s；

3) 一次完整的测试时间不应超过15~20min；

4) 测试成员：专家成员最少10人，非专家20人。

5) 如果预先定义评分值，则不需要对单个评分值做归一化，否则需要归一化处理。

6) 评分可以采用5分或者7分制。

图1 ：YDT2309-2011 标准中的测试方法

(三) 评分标准

评分标准可以采用5分或者7分，预先定义好评分值，则不需要归一化处理。否则需要做归一化处理

图2 ：YDT2309-2011评分标准

(四) 评价维度

国标里面针对音频主观判断的评价列举了很多的维度，这些维度需要根据实际的产品进行删减或者增加。

图3 ：YDT2309-2011 评价维度

图4 ：YDT2309-2011 评价维度

客观评价-基于指标

(一) 相关的标准

常见的音频测试的项目可以粗略的分类为：动态范围，频率响应、灵敏度，谐波失真，互调失真，信噪比，最大输入输出电平等。在目前应用广泛的音频标准中都是分别从不同的角度考察了音频常见产品的性能，现将分类如下：

(二) 测试方法

我们公司的语音对讲功能基本是基于GSM电话对讲，因此，可以参考手机的音频指标测试

客观评价-基于模型

(一) 背景及标准

最早的语音质量评测标准仅是基于无线指标的（RxQual），但实际语音在传输中会经过无线、传输、交换、路由等多个节点，任一环节出现问题都会导致用户语音感知差，仅仅考虑无线指标是无法发现和定位语音质量问题的，于是基于用户感知的语音质量评价方法逐渐成为用户语音服务质量评测的最主要标准。

常用的语音质量评价方法分为主观评价和客观评价。早期语音质量的评价方式是凭主观的，人们在打通电话之后通过人耳来感知语音质量的好坏。1996年国际ITU组织在ITU-T P.800和P.830建议书开始制订相关的评测标准：MOS（Mean Opinion Score）测试。它是一种主观测试方法，将用户接听和感知语音质量的行为进行调研和量化，由不同的调查用户分别对原始标准语音和经过无线传播后的衰退声音进行主观感受对比，评出MOS分值，见表1。

注：对于GSM 络而言，评分在3以上即为比较好的语音质量。

不过显而易见，在现实中让一组人接听语音和评价语音质量是非常困难和昂贵的。因此，ITU组织推行了大量的端到端语音质量客观测试技术的标准化工作，发布了几种语音评估算法标准：PAMS、PSQM、PSQM +、MNB、PESQ。MOS评测开始摆脱原始的主观评估方式，而使用量化算法计算相对应的级别及语音质量好坏程度。

其中，P.862-PESQ（Perceptual Evaluation of Speech Quality）算法是ITU组织在2001年2月发布的目前最新的语音传输质量测量标准，由于其强大的功能和良好的相关性，它迅速成为目前最主流的语音评估算法。PESQ算法适用于评价各类端到端络的语音质量，它综合考虑了感知中的各项影响因素（如编解码失真、错误、丢包、延时、抖动和过滤等）来客观地评价语音信号的质量，从而提供可以完全量化的语音质量衡量方法。

从PESQ算法模型的结构图（见图6）中可以看到整个算法的处理流程。参考信号和通过无线络传输后的退化信号通过电平调整，再用输入滤波器模拟标准电话听筒进行滤波（FFT）。这两个信号在时间上对准，并通过听觉变换。这个变换包括对系统中线性滤波和增益变化的补偿和均衡，再通过认知模型，从而映射到对主观平均意见分的预测。一般情况下，输出信号和参照信号的差异性越大，计算出的MOS分值就越低。

图6 ：PESQ算法原理框图

PESQ作为ITU-P.862中推荐的语音评估最新算法，相对于PSQM和MNB只能用于窄带编解码测量，并且对某些类型的编解码、背景噪声和端到端的影响，比如滤波和时延变化只能给出不精确的预测值，它的算法模型能提供更好的相关性（见表2），能在更广泛的条件下对主观质量给出精确的预测，包括背景噪声、模拟滤波、时延变化等。

ITU-T相关的资料也已证明：PESQ能够给出非常精确的预测值，它适用于目前所知的所有移动通信技术，如GSM、CDMA、3G等，以及编码器语音质量的测量（AMR等）。可以说，PESQ是目前最为先进和准确的语音评估量化算法，由该算法得到的MOS评估结果最为切合用户的实际主观感受。

(二) 测试方法

Mos的客观评价主要基于模型和算法，模型可运行与独立的mos测试盒，或者使用带mos测试的音频分析仪器。

1. 鼎利MOS路测系统

支持基于2G/3G的多款测试手机或商用手机进行基于PESQ的评估测试。Pioneer作为一个通用的综合测试平台，仅需增加单独的音频MOS盒配件，即可平滑升级到MOS测试功能，其结构图如下：

图7 鼎利公司Pioneer MOS测试结构图

Pioneer路测系统的主要功能分为两个方面：一方面是记录测试时的无线络质量情况；另一方面，内置PESQ最新算法模块，实时计算MOS分值并录制退化声音文件，同时给出一些相关质量测试指标。

图8 鼎利公司MOS录音文件波形

R&S?UPV音频分析仪

R&S?UPV除了可以分析常规的音频指标，还可以分析基于模型的mos音频质量评价。

图9 罗德与施瓦茨公司具备mos测试的音频分析仪

总结

上文提供了三种不同的音频质量测试方法，有条件的公司可以三种方法都用上，但是，条件一般的公司，可以选择性的用1/2，1/3，2/3组合，甚至单纯其中一种。三种不同的方法总结如下：

1) 基于主观判断：

基于主观的音频质量判断，主要依靠评审专家的人为试听。优点是成本较低，测试环境容易实现。缺点是：对评审专家的要求较高，并且离散型较大，样本数量不足，不适合大批量的生产测试。

2) 基于客观指标判断：

基于客观指标的音频质量判断，主要依靠仪器的测试测量。优点是测试环境容易实现，参考标准统一，测试结果准确并且客观；缺点是参数指标是生硬的，并不能客观反映人的感受，就会出现，指标很好，但是音质不好的现象。

3) 基于客观模型判断：

基于客观模型的音频质量判断，主要依靠仪器以及使用的算法模型。优点是：MOS评测开始摆脱原始的主观评估方式，而使用量化算法计算相对应的级别及语音质量好坏程度。PESQ算法适用于评价各类端到端络的语音质量，它综合考虑了感知中的各项影响因素（如编解码失真、错误、丢包、延时、抖动和过滤等）来客观地评价语音信号的质量，从而提供可以完全量化的语音质量衡量方法。缺点是: MOS客观评价依赖模型和算法的成熟度及相关性，不同的模型标准不统一，客观性不如指标测试。

声明：本站部分文章内容及图片转载于互联、内容不代表本站观点，如有内容涉及侵权，请您立即联系本站处理，非常感谢！

音频质量评价标准及测试方法

音频质量评价当前主要分三种评价标准：

主观评价

客观评价-基于指标

客观评价-基于模型

总结

相关推荐