1、多媒体的定义 "多媒体 "是指融合两种或两种以上媒体的一种人-机交互式信息交流和传播技术,这些信息媒体包括:文字、声音、图形、图像、动画、视频等。 文字、声音、图形、图像、动画、视频为多媒体的六种形式 2、媒体的类型 感觉媒体:能直接作用于人们的感觉器官,从而能使人产生直接感觉的媒体。如语音、音乐、各种图像、动画、文本等。 表示媒体:为了传送感觉媒体而人为研究出来的媒体。借助于此种媒体,便能更有效的存储或传送感觉媒体。如语言编码、电报码等。 显示媒体:用于通信中使电信号和感觉媒体之间产生转换用的媒体。如输入、输出设施,键盘鼠标器、显示器、打印机等。 传输媒体:用于传输某些媒体的媒体,如电话线、电缆光纤等。 存储媒体:用于存放某种媒体的媒体如纸张、磁带、磁盘、光盘等。 3、多媒体系统的构成 多媒体应用软件 第八层 软件系统 多媒体创作软件 第七层 多媒体数据处理软件 第六层 多媒体操作系统 第五层 多媒体驱动软件 第四层 多媒体输入/输出控制卡及接口 第三层 硬件系统 多媒体计算机硬件 第二层 多媒体外围设备 第一层 4、MPC主要特征可以用一个简单的公式表示: 多媒体PC机 = PC机 CD-ROM驱动器 声卡 视频卡 二、多媒体音频处理技术 1、声音是通过空气传播的一种连续的波。 声音是携带信息的极其重要的媒体,是多媒体技术研究中的一个重要内容。 2、声音的听觉特性 从听觉角度看,声音具有音调、音色和音强三个要素。 –音调 : 表示声音的高低,取决于声音的频率。 –音色:表示人耳对声音音质的感觉。 • 声音分纯音和复音,复音包括基音和泛音。 • 一定频率的纯音不存在音色问题,音色是复音主观属性的反映。–音强:声音的强度,取决于声音的振幅。即"音量"。 3、声音的数字化过程 • 采样:在某些特定时刻对模拟信号进行测量,即使音频信号在时间轴上离散化。 • 量化:对采样后的离散音频信号幅值样本进行离散化处理, 即将每一个样本归入预先编排的量化级上。 • 编码:对量化级以二进制数码按一定数据格式表示的过程。 4、影响数字音频质量的因素 数字音频的质量取决于采样频率、量化位数和声道数三个因素。 5、MIDI文件的特点 (1).指令的集合,文件小。 (2).编辑灵活,在音序器的帮助下,用户可自由地改变音调、音色以及乐曲速度等,以达到需要的效果。 (3).表现力弱,不能与真正的乐器完全相似,音质有待提高。 (4).MIDI声音适于重现打击乐或一些电子乐器的声音, 利用MIDI声音方式可用计算机来进行作曲。 (5).使用MIDI文件,其声音卡上必需含有硬件音序器或者配置有软件音序器。 6、数字式频率调制(FM )合成法 由以下五部分组成: • 数字载波器 • 调制器 •数字运算器 •声音包络发生器 • 模数转换器 从理论上讲,FM合成方法可以产生任何乐音,但是,这种"物理课式"的合成方法合成出来的声音不够真实。 7、乐音样本合成法 把真实乐器发出的声音以数字的形式记录下来, 播放时再加以调整、修饰和放大,生成各种音阶的音符。此法产生的声音质量比FM合成方法产生的声音质量要高。 8、音频信号压缩的三种常用编码方法(比较图) 混合法、波形编码法、分析合成法 9、常见的五种编码(波形编码)及其基本思想 (1)脉冲编码调制(PCM):把模拟信号变换为数字信号的一种调制方式。 (2)增量调制(DM): 对实际的采样信号与预测的采样信号之差的极性进行编码,将极 性变成0或1这两种可能的取值之一。自适应增量调制(ADM): 如果编码器的输出连续出现三个相同的值,量化阶就加上一个大的增量;反之,就加一个小的增量。 (3)自适应脉冲编码调制(APCM):根据输入信号幅度大小来改变量化增量大小的一种 波形编码技术。(4)差分脉冲编码调制(DPCM):是利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术。编码思想:对实际信号值与预测值之差进行量化编码,从而就减少了表示每个样本信号的位数,降低传送或存储的数据量。 (5)自适应差分脉冲编码调制(ADPCM):综合了APCM的自适应特性和DPCM的差分特性,是一种性能比较好的波形编码。 核心思想:1)利用自适应的思想改变量化阶的大小,即使用小(大)的量化阶去编码小(大)的差值; 2)使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小。 10、增量调制(DM)中的问题 斜率过载:音频信号变换快,跟不上(连续三个1或0时增加一个△) 粒状噪声:在输入信号与预测信号的差值接近零的区域,增量调制器的输出出现随机交变得0和1。 三、多媒体数据压缩技术 1、信息熵的含义:将信源所有可能事件的信息量进行平均。 实际上,信息熵是编码所有符号平均所需的二进制位数。信息熵是数据压缩的理论极限! 2、算术编码的思想:将整个信源变成 [0,1)中的一个实数 3、行程长度编码的思想: 它通过将信源中相同符号序列转换成一个计数字段再加上一个重复字符标志实现压缩。 4、信息冗余的五种形式 (1)空间冗余 任一幅图像中,均有由许多灰度或颜色都相同的邻近像素组成的区域,它们形成了一个性质相同的集合块,即存在着空间连贯性,在图像中表现为空间冗余。 压缩方法:把这种集合块当作一个整体,用极少的信息来表示它,从而节省存储空间,这种压缩方法称为空间压缩。 (2)时间冗余运动图像一般为位于一时间轴区间的一组连续画面,其中的相邻帧往往包含相同的背景和移动物体,只不过移动物体所在的空间位置略有不同,所以前、后帧的数据有许多共同的地方,这种共同性是由于相邻帧记录了相邻时刻的同一场景画面,所以称为时间冗余。 同理,语音数据中也存在着时间冗余。 (3)视觉冗余人类的视觉系统并不能对图像画面的任何变化都能感觉到,视觉系统对图像场的注意是非均匀和非线性的,即主要部分质量,同时取画面的整体效果,不拘泥于每一个细节,因而存在着视觉冗余。 人眼对图像的亮度信息敏感,对颜色的分辨率弱。 (4)结构冗余在有些图像的纹理区,图像的像素值存在着明显的分布模式,例如,方格状的板图案等,我们称此为结构冗余。5)知识冗余有些图像的理解与某些知识有很大的关联性。例如,狗有四条腿,头部有眼、鼻、耳朵,有尾巴等。这类规律性的结构由先验知识和背景知识得到,我们称此类冗余为知识冗余。 5、有损编码压缩:此种方法的解码图像与原始图像存在一定的误差,但视觉效果一般可以接受。 压缩比在几倍~上百倍之间; 编码方法有:变换编码、预测编码。 6、无损压缩此种方法的解码图像与原始图像严格相同。 压缩比一般在2:1 ~ 5:1之间; 编码方法有:香农-范诺编码、霍夫曼编码、算术编码、行程长度编码、词典编码等。 四、多媒体图像处理 1、颜色的视觉三要素 色调:色调反映颜色的类别,如红色、绿色、蓝色等。色调大致对应光谱分布中的主波 长。饱和度:饱和度是指彩色光所呈现颜色的深浅或纯洁程度。对于同一色调的彩色光,其饱和度越高,颜色就越深,或越纯;而饱和度越小,颜色就越浅,或纯度越低。 亮度:亮度是光作用于人眼时引起的明亮程度的感觉。是视觉系统对可见物体辐射或者发光多少的感知属性。 2、四种颜色空间及其适用场合 (1)计算机显视器RGB彩色空间 •RGB 彩色空间又称加色法系统,三种颜色均无时显示黑色。 •在RGB彩色空间,任意彩色光F,其配色方程可写成:F=r[R] g[G] b[B](2)彩色印刷CMYK彩色空间 •彩色印刷采用青色、品红、黄色和黑色四种油墨印刷各种颜色,通常把这四种颜色简称CMYK。 •CMYK彩色空间又称减色法系统。 (3)彩色电视YUV和YIQ彩色空间 解决黑白电视机和彩色电视机的兼容问题;可以利用人眼特性来降低数字彩色图像所需的存储容量,大面积涂色。(4)HSL彩色空间HSL彩色空间能够减少彩色图像处理的复杂性,而且更接近人对色彩的认识和解释。 3、矢量图与点位图的区别: 矢量图是图形,点位图是图像矢量图文件小,不会失真点位图显示速度快 4、伽马校正 •一个图像系统中一般包含输入设备(扫描仪、摄像机、数码相机)、存储设备(胶片、磁盘)和输出设备三大模块。 •一个图像系统追求的目标:真实的再现原始场景。 明亮环境,使图像系统γ=1; 暗淡环境,γ≈1.25; 黑暗环境,γ≈1.5。 5、人眼对颜色的感知特性(视觉系统对颜色和亮度的响应特性曲线) (1)眼睛本质上是一个照相机; (2)红、绿和蓝三种锥体细胞对不同频率、亮度的光的感知程度不同; 3)自然界中的任何一种颜色都可以由R,G,B这三种之和来确定。 6、jpeg算法的主要步骤 正向离散余弦变换(FDCT)、量化、DC系数DPCM编码和AC系数Z形排列之后采用RLE编码、熵编码 五、数字视频技术 1、视频的定义视频就是利用人眼视觉暂留的原理,通过播放一系列的图片,使人眼产生运动的感觉(实际上就是系列图片)。 2、运动图像的压缩标准 (1)MPEG-1标准 目标:CD-ROM上存储的数字视频 ,MPEG-1是1992年通过的用于 1.5Mbps速率的数字存储媒体运动图像及伴音编码标准。 MPEG-1主要应用:光盘、数字录音带、磁盘、通信网络以及VCD等。 (2)MPEG-2标准 目标:数字电视 MPEG-2是1994年通过的一个直接与数字电视广播有关的高质量图像和声音编码标准 。 MPEG-2主要应用:DVD、数字电视、视频会议以及多媒体邮件等。 (3)MPEG-4标准 目标:网络环境下、交互式视频 MPEG-4是1998年通过的用于低比特率(≤ 64kbps)的视频压缩编码标准,注重基于视频、音频对象的交互。主要应用:可视电话、实时多媒体监控、网络视频流。 (4)MPEG-7标准 MPEG-7规定一套描述符标准,用于描述各种多媒体信息,以便更快更有效地检索信息。 主要应用:数字图书馆、广播媒体选择、多媒体编辑以及多媒体索引服务 3、彩色数字电视的制式 (1)NTSC制式(正交平衡调幅制) ①525行/帧,30帧/秒 ②隔行扫描:2场/帧,262.5行/场 ③宽高比:4:3(电影为3:2) ④颜色模型:YIQ 采用于美国、日本、台湾地区(2)PAL制式(倒相正交平衡调幅制) ①625行/帧,25帧/秒 ②隔行扫描:2场/帧,312.5行/场 ③宽高比:4:3 ④颜色模型:YUV 采用于中国、多数欧洲国家(3)SECAM制式(顺序传送彩色与存储制) 类似PAL制式,色度信号调频, SECAM制调幅 采用于法国、俄罗斯、中东国家。 4、图像子采样 5、CCIR 601电视图像数字化标准 (1)采样频率 亮度信号采样频率:fs=13.5MHZ =625×25×N(PAL) 或 =525×29.97×N (NTSC) 色度信号采样频率 fc=6.75MHZ 或 13.5MHZ 每行采样点数 N = 864 (PAL) ,858(NTSC) 对于所有制式,每个扫描行的有效样本数均为720。 (2)数字信号取值范围: 每个样本点8位量化,亮度信号220级,色度信号225级,其他位作同步、编码等空中用。(3)图像子采样格式: 4:4:4, 4:2:2、 4:1:1, 4:2:0 六、多媒体光存储系统 1、光存储系统 CD-ROM盘片: 只读型光驱:即CD-ROM驱动器CD-R盘片: 一次可写型光驱: "光盘刻录机"CD-RW盘片: 可擦写型光驱:"可擦写光盘刻录机" 2、光盘的光道结构:CD盘的光道:光道是螺旋形光道 恒定线速度磁盘的磁道:同心环的磁道 恒定角速度 3、通道编码 物理盘上数据和真正数据之间要作变换处理。 通道编码的目的:为了改善读出信号的质量 为了在记录信号中提取同步信号 4、CD-R/RW的读写原理 •刻录CD-R盘的原理:刻录机首先对写激光进行聚焦,然后照射、烧熔有机染料,形成光痕。 •刻录CD-RW盘的原理:采用高能激光,使染料层转换为低反射的非结晶状态,实现数据写入; 采用中能激光,使染料层转换为高反射率的结晶状态,实现数据擦写;(由于CD-RW盘片具有这种热转换性,因此可以反复改变记录层的晶体状态,达到多次重写的目的,但因为材料的因素,晶体状态改变的次数有限。) 5、DVD存储容量的提高 减小激光波长、加大N.A.(数值孔径)、减小光道间距、 减小最小凹凸坑长度、减小纠错码的长度、 修改信号调制方式、 加大盘片表面的利用率减小每个扇区字节数 七、多媒体网络应用 1、多媒体网络应用的例子(交互性由高到低) 因特网电话、实时电视会议、远程教育医疗;声音点播、视频点播、多媒体游戏; 网络收音机、网络电视; 2、流媒体的定义 应用流技术在网络上传输的多媒体文件,而流技术就是把连续的影象和声音信息经过压缩处理后放上网站服务器。 用户一边下载一边观看、收听,而不需要等整个压缩文件下载到自己机器后才可以观看的网络传输技术。 3、保证播放的连续性 •流媒体技术先在使用者端的电脑上创造一个缓冲区,于播放前预先下载一段资料作为缓冲, •当网路实际下载速度小于播放所耗用资料的速度时,播放程序就会取用这一小段缓冲区内的资料,避免播放的中断,也使得播放品质得以维持。 4、流媒体系统的组成 编码器、服务器、播放器 5、流媒体的传输方式 •点播:流媒体的源和目的地是一一对应。 (主动连接) •组播:源和目的地是一对多的关系,客户端局限于组内。 (被动连接) •广播:源和目的地也是一对多的关系,并不局限于组。 (被动连接) 6、常见的流媒体格式• rm\rv\rmvb格式 • asf\wmv\wma格式 • mov格式