文本阅读:
604数字音频技术(第6版
音频文件存档
指纹分析
音频文件元数据
训练模式
识别模式
未知的音频文件
纹分
指纹匹配
音频文件识别
图15.5:一个音频指纹系统能在两种模式下工作。训练模式用来积累一个指纹数据库。识别模式用于鉴别未知的音频文
能生成这个音频文件的指纹,并与存储在数据库中的指纹相匹配单的文件名可以很容易被改变,从而使文件的身份被模糊,被提取出来的信息则与此不
内在地具有识别内容本身的能力。理想情况下,各种参考特征是与音频格式、采样频率、均衡和信号失真等变量无关的。
文件即使
了处理或改变以后,也应该能够
进行特征提取。并且,一个特征应该能抵御对特征进行伪造或是在其他内容中对其进行重用的尝试。为此,指纹中使用的各种特征在面对信号中的各种变化时必须保持相对地不受影响。
类似地
系统必须是可靠的,要能避免识别中的各种错误。大型数据库更容易出现错的匹配,因此具有较低的可靠度。一个系统在计算量上也应该是高效的,应该使用简洁紧凑的指纹,具有较低的算法复杂度,并且采用快速的搜索和匹配技术。大多数系统都是可伸缩的,能允许越来越大的数据库。为了保持高效率,指纹本身应该是紧凑简洁的,但它仍需要包含足够多的参数,以求能够完整地刻画音频文件的特征并实现准确的匹配。
指纹识别通常包含两个步骤:提取和建模。在进行提取之前,音频信号被分割成帧,然进行加窗和交叠处理。这个信号随后进行变换,比如快速傅里叶变换(FFT)或离散余弦变换(DCT)。特征提取可以采用多种类型的技术。在很多情况中采用临界频带频谱分
析来产生各个感觉参数,这些参数与那些对人耳听觉系统有意义的参数相类似。例如,对频谱平坦度的测量可以用来估计信号的纯音性或类噪性,也可以计算各个巴克频带中的能量。
特征矢量需要逐帧地提交给指纹建模算法。它从整个文件中把各个特征整理合并成一个简紧凑的指纹。有多种技术可以使用。例如,一个模型可以在众多特征中选取频谱平均值、过零发生的平均速率、每
拍数等。而另一个模型则可能使用表示各种声音类别的索引序列来描述随时间变化的音频信号。
指纹系统的输出级会对已知指纹数据库的索引进行搜索,尝试着识别出来自于一个未知音频文件的指纹。可以使用欧拉距离、汉明距离或相关度等各种量度。可以使用多种方法优