相关热词搜索:
数字音频编码系统管理论文
数字音频编码系统管理论文 [摘要]随着存储媒体容量和传输带宽的不断提高,高质量多声道数字音频 系统也逐渐取代传统的单声道、立 体声系统,而成为新的传播媒体方式。本文着重介绍当前几种典型的多声 道数字音频系统的编、解码技术。以MPEG-2、AC-3、DTS、MPEGAAC多声道数字音频系统来讨论它们各 自声道的配置、数据容量、数据率等所 带来的优缺点,最后介绍在数字音视频广播中,多声道数字音频系统的应 用。
1、前言 对于CD格式来说,大家都知道它具有良好的信噪比、超过80dB以上的动 态范围以及超过15kHz的频率范围,这 使得它具有良好的音频质量和满意的收听效果,但是它仅仅提供了两个声 道。多声道数字音频系统通过声道 的扩展,不仅在质量上与CD音频不相上下,同时还带给听众身临其境的 感受,而这是传统单声道和立体声无 法实现的,因此多声道数字音频系统已被更多的听众接受,同时也逐渐成 为音乐制作的主流。
在众多的国际标准中,如SMPTE、EBU、ITU-R、ISO/IEC、MPEG等, 都涵盖着一种称之为5.1声道的多声道数 字音频格式。在即将制定的DVD-Audio标准中,也规定将采用24bit采样精 度、88.2,96,192KHz采样率的多 声道数字音频格式。
一种广泛接受的多声道数字音频系统配置方案就是我们常称的5.1声道系 统,也就是3/2/.1的配置方案。这种方法是按照ITR-U的建议BS.775来确定用于重放的扬声器摆放位置的, 如图1所示。
根据建议可知,5个全频带的重放扬声器分为前置扬声器(包括L、R、C) 和后置扬声器(也称环绕扬声器, 包括Ls、Rs),按照图示所规定的角度和方位进行摆放,并且它们都位于 一个圆的边界上,其中L、R扬声器 与C扬声器分别呈30度夹角,Ls、Rs扬声器与C扬声器分别呈110度夹角。
除此5个全频带的声道外,还有一个 低频增强声道,称之为LFE,它的频率范围在200Hz以下,大约是全频带 倍频程的10%左右,因此也称点一声 道。它的放置没有特殊的要求,一般放置在前面。
5个重放扬声器的摆放并不是说能够完全重现真实的空间声像,其实5个扬 声器的使用仅仅是一种重现空间声 像而采用的粗略的实现方式。当然,一方面重放的效果取决于音频素材的 制作,另一方面则需要严格的重放 扬声器的空间位置摆放和收听者的位置关系。在电影院里我们往往能够感 受到声像定位准确的音频效果,现 在也有一些提法,认为8个、10个、12个甚至更多的重放扬声器会有更加 完美的音频效果。这些观点有它存在 的理由,声像的表现当然是越准确越好,但是一味的通过增加重放扬声器 的数量以及增加音频声道数的话, 它也会带来另外的负面影响,如声像的定位更加困难等等,因此我们在此 仅仅通过5.1声道的实现方式来进 行阐述。另外,我们还应明确一点,对于家庭消费者来说,5.1声道已经 足够表现较完美的音频效果了。不管是那种摆放方式,它的实现都离不开基本的编码方式和主要规则。另 外5.1声道方式还会带来较大的压 缩比和较低的比特率(相对于更多声道的情况),下面就详细的来介绍一 下多声道数字音频系统的编码方式。
图1ITR-U的建议BS.775确定的用于重放的扬声器摆放位置 1、多声道数字音频的编码 从立体声向多声道的过渡,增加了对存储和传输媒体的需要。下面以CD 格式为例,假设它的采样频率为 Fs=44.1kHz,采样精度R为16bit,那么CD格式的音频数据率B为:
BCD=2×R×Fs=1.411Mb/s 由此可知,一个小时的CD格式的音乐需要635MB的存贮空间,其实CD最 长的重放时间为74分钟。那么如果使 用的是多声道时,此时的数据率为:
Bcdmultichannel=5.1×R×Fs=3.598Mb/s 同样一个小时的多声道格式的音乐需要1.62GB的存储空间,远远大于CD 的容量。同时当前已应用的多 声道系统面临着带宽的问题。如美国的数字电视中仅仅给多声道的音频 384kb/s的带宽,在Internet音频广 播中,也只有56kb/s的数据通道,因此由上可知,多声道数字音频系统面 临者存储容量和传输带宽的限制。
如何将多声道数字音频数据率降低的同时又能够保证音频质量,是多声道 数字音频系统面临的重大问题。众 所周知,对于线性PCM来说,它的实现简单,在高容量/高带宽的前提下 可以提供CD质量的音频信号。从另一 个角度来看,采样精度的提高以及采样频率的提高,会带来更高的音频质量,如将采样精度由R=16提高到 R=24;
将采样频率由Fs=44.1kHz或Fs=48kHz提高到Fs=96kHz或 Fs=192kHz。这种发展趋势已经逐渐地由一些 录音工程师和音乐制作商所接受,同样多声道数字音频系统则也要顺应这 种趋势。但如果仍然采用线性PC M,这无疑是增加了更大的数据量,提高了现有的数据率。
我们知道线性PCM并没有充分利用音频信号的特性进行编码,在PCM数 据流中存在着大量的冗余信息。同时 要强调的是不管音频信号如何编解码、传输,最终还是要靠我们的人耳来 实现的,如图2所示,因此我们 可以充分地考虑人耳的听觉特性,并加以利用,如人耳的掩蔽效应、哈斯 效应等等。这样就可以将音频信 号中与人耳有关的那部分冗余信息去除掉,在编码时则仅仅对有用的那部 分音频信号进行编码,从而降低 了参与编码的数据量。同时再将编码的信号进行比特精度的分配,对于幅 度比较大的信号或变化比较快的信号分配更多的比特数,而对于幅度小、变化慢 的信号则减少比特数的分配,从而达到减少数据率的可能性,实现编码的高效率。
当然这种结果是以编码过程复杂化为代价的。下面具体分析几种声学模型。
图2编码、传输、人耳听音的实现 2.1根据听觉域度对可闻信号进行编码 人耳对声振动的感受,在频率及声压级方面都有一定的范围,频率范围正 常人约为20Hz~20kHz,而声压级范围则是如图听阈曲线来描述的。意即在这条 曲线之下的对应频率的信号是听不到的。
图16MPEG-2音频混合后环绕声兼容性如图3所示,对于信号A来说,由于 其声压级超过听阈曲线的声压级域值,所以可以对人耳造成声振动的感受,意即听到A信号。而对B信号来说,其声压级位于听阈曲线之下,虽 然它是客观存在的,但人耳是不可闻 的。因此,可以将类似的信号去除掉,以减少音频数据率。
2.2根据掩蔽效应,只对幅度强的掩蔽信号进行编码 人耳能在寂静的环境中分辨出轻微的声音,但在嘈杂的环境中,同样的这 些声音则被嘈杂声淹没而听不 到了。这种由于一个声音的存在而使另一个声音要提高声压级才能被听到 的现象称为听觉掩蔽效应。
如图4所示,虽然B、C两信号的声压级已超过听阈曲线的范围,人耳已可 以听到B、C两信号的存在,但是由 于A信号的存在,通过前向掩蔽将C信号淹没掉,通过后向掩蔽将B信号淹 没掉,从而最终到达人耳引起感觉 的只有A信号。因此,可以将类似的B、C信号去除掉以减少音频数据率。
2.3量化噪声使得不必全部编码原始信号 类似于人耳的听阈曲线,由于数字信号存在着量化噪声,如图5所示,对 于信号A和B来说,并不一定要将A、 B信号进行全部幅度的编码,而只需将A、B信号与量化噪声的差值进行编 码就可以达到相同的听觉效果,因 此,在编码过程中实际量化幅度就可以大大的减少,而减少数据率。
2.4通过子带分割来进行优化、编码 在传统的编码过程中,都是将整个频带作为操作对象,采用相同的比特分 配对每个信号进行量化。而实际 上,由于听觉曲线的存在及其它因素,对于幅度较小的信号可以分配较少 的比特数就可以达到要求,因此将整个频带分成多个子频带,然后对每个子频带的信号独立编码,从而使 得在每个子频带中比特分配可以 根据信号自身来适应。
如图ABCD四个信号,如果对整个频带编码,对于D信号来说分配16比特 来量化则显得多余浪费,所以如果 将ABCD分别置于不同的子带内,则可在分别所处的子带内使用最适合的 比特数分配给信号来编码,从而减 少数据率,同时如果用于分割的子带分辨率越高,意即子带的频带相对越 窄,那么在子带中分配的比特数 就越精确,而减少了比特率。
2.5不同的实现方式 当前在数字音频编码领域存在着各种不同的编码方案和实现方式,为了能 够让大家对此有一个较完整的认 识,在本文中仅对当前流行的几种典型的编码方法做一个介绍。不管是通 过那一种方式实现,其基本的编 码思路方框图都大同小异,如图7所示。对于每一个音频声道中的PCM音 频信号来说,首先都要将它们映射 到频域中,这种时域到频域的映射可以通过子带滤波器(如MPEGLayersI, II,DTS)或通过变换滤波器 组(如AC-3,MPEGAAC)实现。这两种方式的最大不同之处在于滤波器 组中的频率分辨率的不同。
每个声道中的音频采样块首先要根据心理声学模型来计算掩蔽门限值,然 后由计算出的掩蔽门限值来决定 如何将公用比特区中的比特分配给不同的频率范围内的信号,如 MPEGLayersI,II,DTS所采用;
或由计算出的掩蔽门限值来决定哪些频率范围内的量化噪声可以引入而不需要 去除,如AC-3,MPEGAAC所采用。
然后根据音频信号的时域表达式进行量化,随后采用静噪编码(如 MPEGLayersI,II,DTS,MPEGAAC)。
最后,将控制参数及辅助数据进行交织产生编码后的数据流。解码过程则 首先将编码后的数据流进行解复 用,然后通过比特流中传输的控制参数对音频数据反量化,或通过心理声 学模型参数反向运算得到音频信 号(如AC-3),最后将得到的音频信号由频域反变换到时域,完成解码 过程。
另外多声道数字音频编码技术还充分利用了声道之间的相关性及双耳听 觉效应,来进一步去除声道之间的 冗余度和不相关度。去除通道之间的相关度,一种最常用的方法是M/S方 式,在这种方式中是将两个独立 声道的频谱相加和相减,根据两个声道的相关度大小,来决定是传输和/ 差信号还是传输原始信号。
由于人耳对于频率超过2-3kHz的声音定位主要是通过内耳密度差分(IID) 实现的,因此为了进一步减少 数据率,将各个声道中频率超过约定门限值的信号组合后再进行传输。这 种技术应用在MPEGLayersI, II,III中,实现强度立体声编码;
用在AC-3中对两个声道或耦合声道实现 多声道编码。在MPEGAAC中, 则既可实现强度立体声编码,又可实现多声道编码。
1、杜比数字AC-3编解码压缩过程 AC-3最早是在1991年的电影“BatmanReturns”中应用的。它的应用不仅在电影界占有一席之地,而且 它已被北美地区的数字电视及DVD视频定为其数字音频实施规范。我们 熟知的AC-2,AC-3都是由两声道发 展而来的,即杜比数字(DolbyDigital)。对于数字音频信号来说,通过 应用数字压缩算法,来减少正 确再现原始脉冲编码调制(PCM)样本所需要的数字信息量,得出原始信 号经数字压缩后的表达式。
3.1AC-3编码过程 AC-3编码器接受PCM音频并产生相应的AC-3数码流。在编码时,AC-3算 法通过对音频信号的频域表达式进 行粗量化,达到高的编码增益(输入码率对输出码率之比)。如图8所示。
编码过程的第一步是把音频表达式从一个PCM时间样本的序列变换为一 个频率系数样本块的序列。这在分 析滤波器中完成。512个时间样本的相互重叠样本块被乘以时间窗而变换 到频域。由于相互重叠的样本 块,每个PCM输入样本将表达在两个相继的变换样本块中。频域表达式则 可以二取一,使每个样本块包含 256个频率系数。这些单独的频率系数用二进制指数记数法表达为一个二 进制指数和一个尾数。这个指数 的集合被编码为信号频谱的粗略表达式,称作频谱包络。核心的比特指派 例行程序用这个频谱包络,确 定每个单独尾数需要用多少比特进行编码。将频谱包络和6个音频样本块 粗略量化的尾数,格式化成一个 AC-3数据帧(FRAME)。AC-3数码流是一个AC-3数据帧的序列。
在实际的AC-3编码器中,还包括下述功能:l附有一个数据帧的信头(header),其中包含与编码的数码流同步及把它 解码的信息(比特 率、取样率、编码的信道数目等)。
l插入误码检测码字,以便解码器能检验接收的数据帧是否有误码。
l可以动态的改变分析滤波器组的频谱分辨率,以便同每个音频样本块的 时域/频域特性匹配的 更好。
l频谱包络可以用可变的时间/频率分辨率进行编码。
l可以实行更复杂的比特指派,并修改核心比特分派例行程序的一些参数, 以便产生更加优化 的比特指派。
l一些声道在高频可以耦合在一起,以便工作在较低比特率时,可得到更 高的编码增益。
l在两声道模式中,可以有选择的实行重新设置矩阵的过程,以便提供附 加的编码增益,以及 当两信道的信号解码时使用一个矩阵环绕声解码器,还能获得改进的结果。
3.2AC-3解码过程 解码过程基本上是编码的逆过程。解码器必须同编码数码流同步,检查误 码,以及将不同类型的数据 (例如编码的频谱包络和量化的尾数)进行解格式化。运行比特指派例行 程序,将其结果用于解数据 大包(unpack)和尾数的解量化。将频谱包络进行解码而产生各个指数。
各个指数和尾数被变换回到时域成为解码的PCM时间样本。如图9所示:
图9AC-3解码过程框图 在实际的AC-3解码器中,还包括下述功能:
l假若检测出一个数据误码,可以使用误码掩盖或静噪。
l高频内容耦合在一起的那些声道必须去除耦合。
l无论何时已被重新设置矩阵的声道,必须进行去除矩阵化的过程(在2- 声道模式中)。
l必须动态的改变综合滤波器组的分辨率,与编码器分析滤波器组在编码 过程中所用的方法 相同。
3.3杜比数字AC-3编码数据格式 经过杜比数字AC-3编码器的编码处理,可以将原始的数据PCM信号编码 为杜比数字AC-3音频数据流。
一个AC-3串行编码的音频数据流是由一个同步帧的序列所组成。如图10 所示。
由图可见,每个同步帧包含六个编码的音频样本块(AB)其中每个代表 256个新的音频样本。在 每个同步帧开始的同步信息(SI)的信头中,包含为了获得同步和维持同 步所需要的信息。接着SI后 面的是数码流信息(BSI)的信头;
它包含描述编码数据流业务的各种参 数。编码的音频样本块之后接 着是一个辅助数据(AUX)字段。在每个同步帧结尾处是误码检验字段, 其中包含一个用于误码检测的 CRC字。一个附加的CRC字位于SI信头中,以供选用。AB0~AB5的每一块代表一个编码通道,可以被分别独立解码,块的大小 可以调整,但总数据量不变。在 图中还有两个未标出的CRC,其中第一个位于帧的5/8处,另一个位于帧 未。之所以如此安排,目的就 是可以减少解码器的RAM需求量,使得解码器不必完全接收一帧后才解 码音频数据,而是分成了两部 分进行解码。
3.4杜比数字AC-3的兼容性 由于AC-3比特流中同步结构中的AB0~AB5是独立解码的,因此可以将这 些编码信号重新构造为所需的输 出信号,即输出的下行兼容性。如图11所示。
图11AC-3输出的下行兼容性 在许多重放系统中,扬声器的数目不能同编码的音频声道的数目匹配。为 了重现完整的音频节目 需要向下混合。在帧同步中,AB0~AB5中记录着六个独立声道的音频数 据,按照AC-3重放时的安排, 我们称之为L、R、C、Ls、Rs、LFE。一般用于向下混合的过程中,低音 增强LFE通道记录的音频信号 主要用于渲染烘托气氛,所以向下混合时,只用其中的L、R、C、Ls、Rs。
从图中可以看到编码后的 AC-3数据流可以直接传输后经解码器解码为5.1通道音频信息进行重放, 也可以向下混合为两个声道 信号,然后经不同的解码器得到不同的重放模式。就单一环绕声道(n/1 模式)而言,把S称为单个环绕声道。从图中可看出,向下混合提供两种类型:向下混合为Lt、Rt 矩阵环绕编码的立体声对;
向下混合为通常的立体声信号Lo、Ro。向下混合的立体声信号(Lo、Ro 或Lt、Rt)可进一步向下混 合为单声道M,通过两个声道简单的相加即可。如果将Lt、Rt向下混合为 单声道,环绕信息将会丢 失。当希望需要一个单声道信号时则Lo、Ro向下混合更可取。
用于Lo、Ro立体声信号的一般3/2向下混合方程式为:
Lo=1.0′L+clev′C+slev′Ls;
Ro=1.0′R+clev′C+slev′Rs;
如果接着Lo、Ro被组合成单声道信号重放,有效的向下混合方程式为:
M=1.0′L+2.0′clev′C+1.0′R+slev′Ls+slev′Rs;
如果只出现单个环绕声道S(3/1模式),则向下混合方程式为:
Lo=1.0′L+clev′C+0.7′slev′S;
Ro=1.0′R+clev′C+0.7′slev′S;
M=1.0′L+2.0′clev′C+1.0′R+1.4′slev′S;
其中clev、slev分别代表中央声道混合声级系数和环绕声道混合声级系数, 在BSI数据中由 Cmixlev、Surmixlev比特字段来指出相对应的值。
用于Lt、Rt立体声信号的一般3/2向下混合方程式为:
Lt=1.0′L+0.707′C-0.707′Ls-0.707′Rs;
Rt=1.0′R+0.707′C+0.707′Ls+0.707′Rs;
如果只出现单个环绕声道S(3/1模式),则向下混合方程式为:
Lt=1.0′L+0.707′C-0.707′S;
Rt=1.0′R+0.707′C+0.707′S;
经过对独立声道的音频信号进行不同的分配及矩阵重组,则实现了AC-3 数据流的向下兼容性, 意即通过不同的解码器、解码矩阵方式,可以得到杜比数字5.1声道环绕 声、立体声、杜比 Prologic、单声道以及杜比的虚拟环绕声方式。其中Lo、Ro与Lt、Rt的最 大区别就是Lt、Rt是 记 录的全部的L、R、环绕声的信息,经过矩阵重解可得到环绕声信息,而 Lo、Ro则是将环绕声信 息增加支立体声信号中,无法再重现环绕声信号信息。
4、MPEG-2多声道编解码过程 MPEG-2感知编码系统充分利用了心理声学中的掩蔽效应和哈斯效应,利 用压缩编码技术,将原始 音频信号中不相关分量和冗余分量有效的去除掉,在不影响人耳听觉阈度 和听音效果质量上,将 音频信号压缩。
4.1MPEG音频子带编码器的基本结构 感知型子带音频编码器不断地对音频输入信号进行分析。由一个心理声学 模型动态地确定掩蔽门限, 即在该掩蔽门限之下的多余的噪声是无法为人的听觉系统听到的。由该心 理声学模型产生的信息被馈至一个比特分配模块,该模块的任务是将各声道可用的比特以一种优化 的方式在频谱范围内进行 分配。输入信号还与上述过程并行地被分割到一系列称为子带的频带中。
每个子带信号都在经过定 标处理后被重新进行量化,该量化编码过程引入的量化噪声不能超过已确 定的对应子带的掩蔽门限。
因此量化噪声频谱就与信号频谱进行了动态自适应。“比例因子”和各子带 所使用的量化器的相关 信息与编码后的子带样值一同进行传输。
解码器可以在不了解编码器如何确定编码所需信息的情况下对码流进行 解码。这可以降低解码器的 复杂度,并为编码器的选择和解码器开发提供了很大的灵活性。如在心理 声学研究上取得了新的结 果,则更高效率和更高性能的编码器可在与所有现有解码器完全兼容的条 件下得以应用。这一灵活 性目前已有了成功的例子,现在最高技术水平的编码器的性能已超过了标 准化过程中使用的早期编 码器。如图12所示。
图12(a)MPEG音频编码器框图 4.2层 MPEG音频标准包括了三种不同的算法,称为层。层数越高,相应可达到 的压缩比就越高,而复杂度、 延时及对传输误码的敏感度也越高。层II专门对广播应用进行了优化。它 使用了具有32个等宽子带划 分的子带滤波,自适应比特分配和块压扩。单声道的码率范围为32-192kbps,立体声为64-384kbps。
它在256kbps及192kbps相关立体声条件下的表现十分出色。128kbps(立 体声)条件下的性能在许 多应用中仍可接受。
4.3MPEG-2在多声道音频方面的扩展 ITU-R工作组TG10-1在关于多声道声音系统的建议方面进行了工作。该项 工作的主要成果就是建议 BS.775,其中说明一个适当的多声道声音配置应包含五个声道,分别代表 左、中央、右、左环绕、右 环绕声道。如果使用了一个作为选项的低频增强声道(LFE),则该配置 被称为“5.1”。五声道配置 也可表示为‘3/2’,即三个前置声道及两个环绕(后置)声道。
MPEG已认识到应根据ITU-R建议775来增加音频标准的多声道能力的必 要性。
这是在第二阶段完成的,由此产生了MPEG-2音频标准。在多声道声音方 面的扩展支持在一路码流中传 输五个输入声道、低频增强声道以及7个旁白声道。该扩展与MPEG-1保持 前向及后向兼容。前向兼容性 意味着多声道解码器可正确地对立体声码流进行解码。后向兼容性则意味 着一个标准的立体声解码器 在对多声道码流进行解码时可输出兼容的立体声信号。
这是通过一种真正的可分级方式实现的。在编码器端,五个输入声道被向 下混合为一路兼容立体声信 号。该兼容立体声信号按照MPEG-1标准进行编码。所有用于在解码器端 恢复原来的五个声道的信息都被置于MPEG-1的附加数据区内,该数据区被MPEG-1解码器忽略。这些 附加的信息在信息声道T2、T3及 T4以及LFE声道中传输,这几个信息声道通常包含中央、左环绕和右环绕 声道。MPEG-2多声道解码器不 但对码流中的MPEG-1部分进行解码,还对附加信息声道T2、T3、T4及LFE 解码。根据这些信息,它可 以恢复原来的5.1声道声音。如图13所示。
13MPEG-2编码器/解码器框图 当相同码流馈送至MPEG-1解码器时,解码器将只对码流的MPEG-1部分 进行解码,而忽略所有附加的多 声道信息。由此它将输出在MPEG-2编码器中经向下混合产生的两个声道。
这种方式实现了与现有的双 声道解码器的兼容性。也许更为重要的是,这种可分级的方式使得即使在 多声道业务中仍可使用低成 本的双声道解码器。考虑到所使用的其它所有编码策略,多声道业务中的 双声道解码器本质上就是一 个对所有声道进行解码并在解码器中产生双声道向下混合信号的多声道 解码器。如图14所示。
就其包含了不同的可由编码器使用以进一步提高音频质量的技术而言,该 标准是具有很大灵活性的。
4.4定向逻辑兼容性 如果源素材已经经过环绕声编码(如Dolby环绕声),广播业者可能希望 将它直接播送给听众。一种 选择是将该素材直接以2/0(仅为立体声)模式播送。环绕声编码器主要 是将中央声道信号分别与左右声道信号同相相加,而将环绕声道信号分别与左右声道信号反相相加。
为能对这些信息正确解码, 编解码器必须保持左右声道彼此之间的幅度和相位关系。这在MPEG编码 中是通过限制强度立体声编码 只能在高于8kHz的频率范围内使用而得以保障的,因为环绕声编码仅在 低于7kHz的范围内使用环绕声 道信息。如图15所示。
图15使用MPEG-1音频播送环绕声素材 当传输多声道信息时,与现有(专利的)环绕声解码器的兼容性可通过几 种手段得以实现。多声 道编码器在工作时使用一个环绕声兼容的矩阵。这可以使立体声解码器能 够接收环绕声编码的信号, 并可选择将其传送给环绕声解码器。一个完整的多声道解码器将对所有信 号进行再变换,以获得原来 的多声道表现。MPEG-2多声道语法支持这种模式,进而也为DVB规范所 支持。如图16所示。
4.5MPEG-2在低采样率方面的扩展 除了在多声道方面的扩展外,MPEG-2音频还包含了MPEG-1音频在低采 样率方面的扩展。该扩展的目的 是以一种简单的方式获得改进的频谱分辨率。通过将采样率减半,频率分 辨率就提高了两倍,但时间 分辨率则劣化了两倍。这可使许多稳态信号获得更好的质量,而对一些在 时间特性上要求严格的信号 而言质量则下降了。半采样率的使用是在码流中通过将每帧帧头中的某一 比特,即ID位置设为“0”来表示的。而且,可用码率表也进行了修改,以便在低码率条件下提供更 多的选择,每个子带可用的 量化器也为适应更高的频率分辨率作了修改。
5、先进音频编码(AdvancedAudioCoding-AAC) MPEGAAC(先进音频编码)是于1997年成为ISO/IEC标准的(参见 ISO/IEC13818)。AAC是以新建立 的MPEG-4标准中的时域到频域映射的编码算法组成的。AAC从提高效率 的角度出发,放弃了与原 MPEG-1解码器的后向兼容性,这也是该算法在开始时被称为NBC的原因。
5.1AAC的主要特点 AAC可以支持1到48路之间任意数目的音频声道组合、包括15路低频效果 声道、配音/多语声声道,以 及15路数据。它可同时传送16套节目,每套节目的音频及数据结构可任意 规定。在码率为64kbps/声 道的条件下,AAC可以提供很高的声音质量。
根据不同的应用场合,AAC提供了三种类型(Profile)以供选择,即主要 类型(MainProfile)、 低复杂度类型(LowComplexityProfile)、可放缩采样率类型 (ScaleableSamplingRate,SSR Profile)。因而其可应用范围很广。
5.2AAC算法结构 为提高音频编码效率,AAC采用了许多先进技术,如霍夫曼编码、相关立 体声、声道耦合、反向自适应预测、时域噪声整形、修正离散余弦变换(MDCT)、及混合滤波器组 等。其算法基本结构框图如图17所示。
其中,滤波器组与MPEG层III所采用的滤波器组相比,由于层III算法在对 滤波器进行选择时考虑了兼 容性问题,因而具有固有的结构上的不足;
而AAC则直接采用了MDCT 变换滤波。同时,AAC增加了窗口 长度,由1152点增至2048,使MDCT的性能优于原来的滤波器组。
时域噪声整形(TNS)技术是时域/频域编码中一项新颖的技术。它利用 频域的自适应预测的结果来对 时域中量化噪声的分布进行整形处理。通过采用TNS技术,可以使特殊环 境下的话音信号质量得到显著 的提高。
后向自适应预测是一项在语音信号编码系统领域建立起来的技术。它主要 利用了某一特定形式的音频 信号易于预测的特点。
在量化过程中,通过对量化精度更为精细的控制,可以使给定的码率得到 更加有效的利用。
在码流复接时,通过对必须传输的信息进行熵编码使冗余度降至最低。
通过以上各种编码技术的运用以及采用一种可变的码流结构,使AAC编码 算法在得到大大优化的同时, 也为将来进一步提高编码效率提供了可能性。
事实上,在AAC编码的三种类型中,各种编码技术的使用也是不同的,也 就是说,三种类型的算法复杂 度是不同的。这一不同考虑了编、解码两端的算法复杂度。例如,后向自 适应预测约占解码运算量的45%左右,在LC和SSR类型中都没有采用这一技术。另外,在LC类型中, TNS滤波器的长度被限制为12个 系数,但仍保持了18KHz带宽;
在SSR类型中,TNS也只使用12个系数, 并且带宽限制为6KHz,同时该 类型也没有采用声道耦合技术,在混合滤波器组的结构及增益控制方面也 与另两种类型不同。
AAC可以在低数据率的情况下提供较高质量的音频信息,如每个声道仅 64kb/s时就会有比较好的性能。
AAC当前的应用主要用于日本的数字音频广播及美国的IBOC(带内同频 技术)。
6、用于DTS的相干声学编码 DTS系统中采用的数字音频压缩算法――相干声学编码,主要目的就是用 于提高民用音频重放设备重放 的音频质量的,其音频重放质量可以超越原有的如CD唱片的质量。同时 通过更多扬声器的使用,使得 听众可以感受到普通立体声无法达到的声音效果。因此总体目标就是将听 众真正的带入专业的音响领 域及多声道环绕声的天地。
相干声学编码器是一种感知、优化、差分子带音频编码器,它使用了多种 技术对音频数据进行压缩。下 面将分别对其进行详细的描述。从整体来看,编码器与解码器的实现是不 对称的。理论上编码器可以 设计的非常复杂,但实际上,编码器发展成为包括两种音频分析的模式。
解码器与编码器相比则简单的 多,因为解码算法是根据编码数据流中的参数来控制的,解码器不需要做