面向音频检索的音频分割和标注研究

孙卫国1，夏秀渝1，乔立能1，叶于林2

（1.四川大学电子信息学院，四川成都 610064；2.中国人民解放军78438部队，四川成都 610066）

：解决大规模音频数据库快速检索的有效手段之一是建立合适的音频索引,其中音频分割和标注是建立音频索引的基础。文中采用了一种基于短时能量和改进度量距离的两步音频分割算法，使得分割后的音频片段具有段间特征差异大、段内特征方差小的特点。在音频分割的基础上进行了音频数据库中音频流的标注；分别基于BP神经络算法和Philips音频指纹算法对音频进行了音频类别和音频内容的标注，为后续建立音频索引表做准备。实验结果表明，两步分割算法能较好地分割任意音频流，音频标注算法能有效进行基于音频类别和音频内容的标注，算法同时具有良好的鲁棒性。

：音频分割；短时能量；度量距离；音频标注；BP神经络；音频指纹

：TN912.3文献标识码：ADOI：
10.19358/j.issn.1674-7720.2017.05.013

引用格式：孙卫国，夏秀渝，乔立能，等.面向音频检索的音频分割和标注研究［J］.微型机与应用，2017,36（5）：38-41.

0引言

随着信息技术的高速发展，多媒体信息呈爆炸式增长，人们开始步入大数据时代，对音频检索的要求也在不断增长［1］。如何从海量信息中快速、准确地检索到最渴望的音频信号成为了当前研究的一大热点［2］。现有检索方法大都采用遍历的方式，通过计算、比较查询音频和待检音频之间的距离来达到检索目的，此类方法需要庞大的计算量，检索的效率较低。对于大规模音频库的快速检索问题，建立索引是解决该问题的有效手段。张雪源等提出利用倒排索引对音频进行检索［3］，在很大程度上减少了检索中的计算量。

1音频分割

1.1基于能量的音频分割

音频流经过预处理后，提取各帧的短时能量作为音频的基本特征，利用短时能量能有效对音频流进行有声、无声的分割。具体做法是：首先对音频进行分帧，计算每一帧的能量，而后通过计算连续若干帧能量之和，并与门限值进行比较，从而判断是否为有声和静音的分割点。设Emax、Emin、Emean分别表示音频流短时帧能量的最大值、最小值和均值；用Eoff表示能量的浮动范围，最终能量门限应该处于Emin和Emin+Eoff之间，选择合适的静音因子β（0≤β≤1），计算能量门限E［3］th：

β的取值由实验确定，实验结果显示β取 0.1 时分割效果最好。当超过连续10帧的音频短时帧能量小于能量门限则认为该音频片段为静音段，否则为有声段。

1.2基于改进度量距离的音频分割

式（3）分子表示左右两段音频特征均值的差异，分母反映左右两段音频各自方差的平均值，当两段音频段间距离大、段内方差小时DIS可获较大值。。

特征参数选用了24维Mel频率倒谱系数，使用固定窗长的分窗方法计算相邻音频的度量距离，考虑到计算量，将左右两边的数据窗长取为等长，这样处理之后的距离测度公式简化为：

依次逐帧滑动，取出所得距离值曲线上的局部极大值点，并利用阈值判断其是否为分割点。具体做法是：当DIS极大值点的值超过预设门限T-DIS时，判断为分割点，否则暂时舍去；接着计算当前分割点和前一分割点之间音频特征的方差，若小于预设门限TVAR则确认该分割点，并继续下一分割点判断，否则取当前分割点和前一分割点之间的中间点为新的分割点，确保段落内方差满足条件为止。用该方式继续搜寻下一分割点，直至数据段的结束。

经过上述两层分割，可以将任意长度的音频流准确而有效地分割为音频特征数值波动幅度较小的短时段落。由于第1层采用能量极小值点进行分割，第2 阶段才依赖均值和方差的统计，因此，当音频数据起点略有偏移时，最终分割偏差累积主要存在于音频的起始和结尾部分，而对音频中间主体部分的分割影响较小，因此该分割方法具有起点鲁棒性。

2音频标注

2.1基于BP神经络的音频类别标注

BP 络是目前应用最广泛的神经络模型之一。它是一种多层前馈络，学习规则使用最速下降法，通过反向传播算法调整络的权值和阈值。BP神经络模型分为两个阶段：一是模型训练阶段，将大量已做标注的音频信号作为训练样本训练络，首先进行音频预处理提取训练样本的特征参数，每帧音频提取24维MFCC参数，然后将这些特征参数作为输入送入神经络，同时给出期望输出，通过BP算法对神经络进行训练，最终学习得到络的一组连接权值和阈值；二是模型识别阶段，将待识别音频信号进行同样的预处理和特征参数提取，输入到训练好的络中，利用训练好的连接权值和阈值计算络输出，并与预先设置的阈值比较以确定音频类别。对段长为1 min的音频进行标注时，只需统计各类音频出现帧数，记录帧数超过预设阈值的音频类别编号即完成此1 min的音频标注。

2.2基于Philips音频指纹的音频标注

F（n，m）=

1ifE（n，m-1）-E（n，m）-（E（n，m）-E（n，m+1））＞T

0ifE（n，m-1）-E（n，m）-（E（n，m）-E（n，m+1））≤T (5)

式（5）中门限T的取值以各段基元子带能量均值为基准，并乘以一定比例系数动态选取。对段长为1 min的音频进行标注时，记录出现的段基元音频指纹即可。

3实验分析

3.1音频分割实验

采用两层音频分割进行音频分割，经过实验，选取β=0.1时有最好的分割效果；在第二层的分割实验中， TDIS取DIS的均值，TVAR=0.01，N=6时有最好的分割效果。实验结果如图1、2所示。

从图1可以看出，音频有声段和无声段被有效分割开。在图2中，有声段被进一步分割成声学特征变化小的短时段落。

P=NXYNX×100%(6)

NX表示x(t)分割点的总数，NXY表示x(t)和y(t)分割点一致的数目（两个分割点相距1帧，也认为一致）。从数据库中随机选取了10 min长的音频，分别叠加不同信噪比的高斯白噪声生成带噪音频数据，统计了不同信噪比下带噪音频与无噪音频的分割准确率，实验结果如表1所示。

实验结果显示，信噪比降低对音频分割准确率有一定影响，但总体看该分割算法具有一定的抗噪性。

3.2音频标注实验

3.2.1音频类别标注

BP神经络设置为3层，其中输入层节点24个，对应24维MFCC参数；输出节点10个，对应10个不同音频类型并分别用数字依次标记；隐层节点设置为25个。本实验训练时参数设置为：反向传播算法最大循环次数为3 000，学习系数为0.000 1，误差阈值为0.000 01。模型识别实验结果如表2所示。

表2是BP 络训练10类音频的预测正确率，统计实验结果显示络的平均识别正确率达97%。音频类别标注实验中，每1 min音频数据送入训练好的神经络，在输出端通过预测门限给出每帧的音频类别编号，然后统计该段各编号出现次数并统计为直方图。将大于200帧的编号都记录下来，以此作为该段进行标注有效的音频类别。图3是在众多切分成1 min的音频片段中某一片段的统计直方图。

从图3可以看出，该时间段标记为1、3、7、9四类，表示这1 min的音频片段里有此四类有效音频。

3.2.2音频指纹标注

音频指纹标注同样针对1 min音频段进行。将该段音频中大于3帧的段基元各帧子带能量谱进行平均，然后提取音频指纹，记录该段音频中出现过的所有音频指纹。图4为某1 min音频段共270个段基元生成的指纹图。不难发现，以段基元产生的指纹比按帧产生的指纹数据量大大减少，这样使后续建立音频索引表进行音频检索更简洁、高效。

4结束语

参考文献

［1］刘巍.基于内容的同源音频和视频检索［D］.北京：北京邮电大学, 2011.

［2］张卫强,刘加. 络音频数据库检索技术［J］.通信学 , 2007,28(12):152-155.

［3］张雪源,贺前华,李艳雄,等.一种基于倒排索引的音频检索方法［J］.电子与信息学 ,2012,34（11）:2561-2567.

［4］吴宇,钱旭,周剑鸣.基于相对熵和贝叶斯信息判据的在线分割算法［J］.电声技术，2013,37(3):49-53.

［5］王欢.语音发现与跟踪技术的研究及应用［D］.北京：北京邮电大学,2014.

［6］张卫清.语音识别算法的研究［D］.南京：南京理工大学,2004.

［7］陈仁林,郭中华,朱兆伟.基于BP神经络的说话人识别技术的实现［J］.智能计算机与应用,2012,2（2）:47-49.

［8］杨景花,王双喜,周思方，等.基于神经络的智能语音识别研究［J］.微型机与应用,2016,35（17）:52-54.

［9］周亦敏,牟同鑫.采用复倒谱和子串匹配的音频指纹算法研究［J］.上海理工大学学 ,2010,32(3):277-280.

［10］鲁明明,张晖,沈庆宏. 基于功率谱特征的音频指纹实现［J］.电子测量技术,2016,39(9):69-72.

声明：本站部分文章内容及图片转载于互联、内容不代表本站观点，如有内容涉及侵权，请您立即联系本站处理，非常感谢！

面向音频检索的音频分割和标注研究

相关推荐