文本阅读:
376数字音频技术(第6版
槽数(Frequency Bin Numbers)。例如,一个512点的变换能产生256个频率系数或频率槽。这些系数可能有512个、1024个或更多,它们被分组成32个频带,用以模仿临界频带分析。该频谱代表了这个基于时间的输入采样点块。根据编解码器的心理声学模型对每
带内的频谱系数进行量化,每个频带内的量化可以是均匀的、非均匀的固定的或是自适应的
变换编解码器可以使用离散余弦变换(Discrete Cosine transform,DCT)或改进的离散余弦变换(Modified Discrete Cosine transform,MDCT)进行变换编码,因为它们的计算复杂度低且它们可以对信号进行临界采样(即以带通滤波器带宽的两倍进行采样)来产生出适当数量的系数。大多数编解码器对时间上相继的块进行50%的交叠,因此每个采样点都会出在两个不同的变换块中。例如,当前块的前半部分中的各个采样点是对前一个块后半部的重复。这降低了块与块之间在频谱上的变化,并且改善了时间分辨率。DCT和MDCT可以产生与非交叠块相同数量的系数。如前所述,可以在编解码器的侧链中使用FFT产生感觉模型所需的各个系数
所有低比特率编解码器都是对一个采样点块进行操作的。这个块必须要足够短,以保持在人耳的时域遮蔽极限以内。在解码时,量化噪声将遍布于带内的频率上,并且遍布于该块的持续时间内。如果这个块的长度比时域后向遮蔽允许的时间长,则会听到噪声出现在声音开始之前,即所谓的预回声现象(预回声这个词容易让人误解。)在一个分析窗中如果先是一段静音,随后有一个时域瞬态信号的话,预回声会成为特别突出的问题。瞬态部分的能量
起编码器分配相对很少的比特,因此提升了最终的量化噪声级。当频谱系数在解码器中被反变换到合成滤波器组重建出的子带采样点之前时,就会产生预回声。量化噪声的持续时间等于合成窗的持续时间,因此被提升的噪声会遍布在分析窗中,而瞬变信号只会短暂地出现。换句话说,编码令量化噪声中的提升与音频信号中的一个瞬变信号相伴,但这个简短
】瞬变信号并不足以遮蔽它周围的量化噪声,如图10.17所示。在这个例子中角波的
起音作为瞬态信号出现。变换编解码器的分析窗对一个相对较长的时间段进行操作。量化噪声散布于整个窗内,并且在音乐信号出现之前就出现了,因此它会被听成是一个预回声。变换编解码器特别受预回声问题的影响,因为这些编解码器需要用长分析块来实现更好的频率准确度。块长度过短会限制频率分辨率(也会相应地增加额外开销的边信息的数量本质上,变换编解码器牺牲了时间分辨率以换取频率分辨率。长块适合缓慢变化的或似音的信号,频率分辨率让编解码器可以识别出频谱上的各个谱峰,并在比特分配中使用它们的遮蔽特性。例
单簧管演奏的一个音符及其谐波就需要精细的频率分辨率,但只需要粗略的时间分辨率。不过,瞬态信号需要一个短的块长度,这些信号具有更为平坦的频谱。例如
响板喀哒声的快速瞬变就需要精细的时间分辨率,但只需要粗略的频率分辨率