在现代通信技术中,信息处理的硬件大部分都是数字逻辑电路或数字计算机,因此音视频信息进入系统必须进行数字化处理。模拟信号在时间上是连续的,而数字音视频则对应一个时间离散的数字序列。为用数字形式传输和处理音视频信息,首先要解决的问题是音视频信息的数字化,这包括两方面的内容:
•音频信息时间上的离散化和图像信息空间位置的离散化。
•音频信息电平值和图像灰度电平值的离散化。
上述过程涉及音视频信号的采样,量化和编码。对于音频信号而言,采样就是使音频信号在时间轴上离散化,每隔一个时间间隔在模拟声音波形上取一个幅度值,采样的时间间隔称之为采样周期。根据采样定理,只要采样频率等于或大于音频信号中最高频率成份的两倍,信息量就不会丢失,也就是说可以由采样后的离散信号不失真地重建原始的模拟音频信号,否则就会产生不同程度的失真。因此采样频率的选择是音频信息数字化的关键技术之一。现代通信技术中通常选用的音频采样频率有8kHz,11.025kHz,16kHz,22.05kHz,32kHz,44.1kHz和48kHz等。音频信号通常采用8~20bit量化编码。一般在允许失真条件下,尽可能选择较低的采样频率,以免使数据速率过高。
对于视频信号而言,采样就是使图像信号在空间位置上离散化。设F1(x、y)表示一个实际图像的光强度函数,x、y为空间坐标,它是一个连续的图像场,在空间上覆盖无穷大的区域,对于一个理想的抽样函数,将F1(x、y)乘上一个空间抽样函数S(x、y),则得抽样后的离散图像。
FP(x,y)=F1(x,y)S(x,y) (1)
式(1)中
而△x及△y是δ函数无穷阵列的空间间隔。
对抽样后离散图像进行二维傅里叶变换,得到其频谱表达式为
其中
由图1可见:抽样后图像的频率是在频率轴上分别以间隔△u及△v将原图像的频谱无限重复构成的,当抽样频率满足奈奎斯特准则,且原图像的频谱是有限带宽时,抽样后图像的频谱就不会出观混叠。
图1 抽样前后图像的频谱
为了防止混叠失真的出现,通常情况下在抽样前要对视频图像信号进行低通滤波来限制带宽。从抽样后图像的频谱可以看出,利用一个低通滤波器将原图像频谱滤出,则可无失真地重建原图像。
经过抽样后的音视频信号,只是一系列时间或空间上的离散样值,而每个样值的取值仍是连续的,要想进行数字化表示必须将它转换为有限个离散值,这个过程称为量化。如果样值等间隔分层量化,则称之为均匀量化,若使用非等间隔进行量化,则称为非均匀量化。在量化过程中,一个模拟信号样本与一组判决电平作比较,如果样本落在两个判决电平之间,则它被量化到这个量化区内的一个固定电平上去,模拟值与量化值间的误差称之为量化误差或量化失真。对图像信号而言,在图像亮度平坦区域这种量化噪声看起来像颗粒状,故称之为颗粒噪声;图像量化带来的另一种失真称为伪轮廓现象。显然,量化噪声与伪轮廓现象都与量化精度有关,量化越精细量化噪声越小,伪轮廓现象就会减轻,但这是以增加电平数(码率)为代价的。在数字系统中被量化之后的音视频信号其每个量化电平最终被赋予一个二进制码字。因此音视频信号数字编码的实质是:在保证一定图像或声音质量(信噪比要求和主观评价得分)的前提下,以最小比特数来表示音视频信号。视频信号通常采用6~10bit量化编码。