光盘见证数码多媒体的30年 开启有损数字音频时代的MP3
夏昆冈 于 2009.09.02 11:10:09 | 源自:www.soomal.com | 版权:原创 | 平均/总评分:09.88/79

VCD是第一种被广泛普及的数字化影音光盘,它采用了一种叫做MPEG-1的编码技术,这是一种有损压缩的数字媒体技术,它分作视频压缩和音频压缩两部分。今天我们先要回顾的是音频部分。音频部分被称作MPEG Audio Layer,根据编码复杂程度的不同可分为三层,分别为MPEG Audio Layer 1/2/3。VCD采用的是MPEG Audio Layer 2。而最为人们熟知的MP3是MPEG Audio Layer 3,MP3即MPEG Audio Layer 3的缩写。MP3与VCD有着密切的关系。

  • MPEG Audio最初并没有作为单独的编码方案使用,但在当时,存储技术还比较落后,存储成本也非常高,如何低成本的保存高质量的音频信号是攻关重点。1993年由德国Fraunhofer IIS研究院和汤姆生公司合作发展出MP3,MP3可以做到12:1的惊人压缩比并保持基本可听的音质(128kbps码率前提),在当年硬盘天价的日子里,MP3迅速被用户接受,随着网络的普及,MP3被数以亿计的用户接受。MP3编码技术的发布之初其实是非常不完善的,由于缺乏对声音和人耳听觉的研究,早期的mp3编码器几乎全是以粗暴方式来编码,音质破坏严重。

    VBR:MP3格式的文件有一个有意思的特征,就是可以边读边放,这也符合流媒体的最基本特征。也就是说播放器可以不用预读文件的全部内容就可以播放,读到哪里播放到哪里,即使是文件有部分损坏。虽然mp3可以有文件头,但对于mp3格式的文件却不是很重要,正因为这种特性,决定了MP3文件的每一段每一帧都可以单独的平均数据速率,而无需特别的解码方案。于是出现了一种叫VBR(Variable bitrate,动态数据速率)的技术,可以让MP3文件的每一段甚至每一帧都可以有单独的bitrate,这样做的好处就是在保证音质的前提下最大程度的限制了文件的大小。这种技术的优越性是显而易见的,但要运用确实是一件难事,因为这要求编码器知道如何为每一段分配bitrate,这对没有波形分析的编码器而言,这种技术如同虚设。正是如此,VBR技术并没有一出现就显得光彩夺目。

    听觉模型的导入:专家们通过长期的声学研究,发现人耳存在遮蔽效应。声音信号实际是一种能量波,在空气或其他媒介中传播,人耳对声音能量的多少即响度或声压最直接的反应就是听到这个声音的大小,我们称它为响度,表示响度这种能量的单位为分贝(dB)。即使是同样响度的声音,人们也会因为它们频率不同而感觉到声音大小不同。人耳最容易听到的就是4000Hz的频率,不管频率是否增高或降低,即使是响度在相同的情况下,大家都会觉得声音在变小。但响度降到一定程度时,人耳就听不到了,每一个频率都有着不同的值。 

  • 可以看到这条曲线基本成一个V字型,当频率超过 15000Hz时,人耳的会感觉到声音很小,很多听觉不是很好的人,根本就听不到20000Hz的频率,不管响度有多大。当人耳同时听到两个不同频率、不同响度的声音时,响度较小的那个也会被忽略,例如:在白天我们很难听到电脑中散热风扇的声音,晚上却成了噪声源,根据这种原理,编码器可以过滤掉很多听不到的声音,以简化信息复杂度,增加压缩比,而不明显的降低音质。这种遮蔽被称为同时遮蔽效应。但声音A被声音B遮蔽,如果A处于B为中心的遮蔽范围内,遮蔽会更明显,这个范围叫临界带宽。每一种频率的临界带宽都不一样,频率越高的临界带宽越宽。

    频率(Hz)临界带宽(Hz)频率(Hz)临界带宽(Hz)
    50801850280
    1501002150320
    3501002500380
    4501103400550
    5701204000700
    7001404800900
    84015058001100
    100016070001300
    117019085001800
    1370210105002500
    1600240135003500

    根据这种效应,专家们设计出人耳听觉心理模型,这个模型被导入到mp3编码中后,导致了一场翻天覆地的音质革命。MP3音质也因此逐渐被主流消费者接受,这样也触发了后来的一场随身听设备革命。MP3让濒临破产的苹果咸鱼翻身,而当时的随身听行业龙头Sony则从此被迅速的边缘化。

    MP3对行业的贡献还不止这些。

    流媒体时代的先锋

    不知道大家还是否记得当年VCD广告最爱说的一个卖点——超强纠错?所谓超强纠错就是遇到读不出的数据段,将直接跳过去,以保证播放的基本流畅。

    这并不是VCD的播放机有多牛,而是VCD采用的MPEG-1的编码技术,可以在读取数据前不用预读文件信息,简单的说,就是可以边读边播放。具备这种特征的媒体都可以称为流媒体。脱胎于MPEG-1的MP3也继承了这个特征。

    因为MP3具有流媒体特征,因此它可以用于基于网络的数字广播的搭建。MP3相对后来出现的Windows Media Audio等编码技术,还是压缩率太低,并不适合网络广播,但MP3给后来者的引导作用是积极的并且作用巨大。

    流媒体,这是一个在1993年就基本确定的概念,但有些“不明真相”的厂商,还在借助这个概念炒作什么流媒体电视或者流媒体音箱,让人啼笑皆非。

    MP3的衍生方案

    2001年6月14日,汤姆森多媒体公司 (Thomson Multimedia SA)与佛朗赫弗协会(Fraunhofer Institute)于6月14日发布了一种新的音乐格式版本,名称为mp3PRO,这是一种基于mp3编码技术的改良方案,从官方公布的特征看来确实相当吸引人。从各方面的资料显示,mp3PRO并不是一种全新的格式,完全是基于传统mp3编码技术的一种改良,本身最大的技术亮点就在于 SBR(Spectral Band Replication 频段复制),这是一种新的音频编码增强算法。它提供了改善低位率情况下音频和语音编码的性能的可能。这种方法可在指定的位率下增加音频的带宽或改善编码效率。SBR最大的优势就是在低数据速率下实现非常高效的编码,与传统的编码技术不同的是,SBR更像是一种后处理技术,因此解码器的算法的优劣直接影响到音质的好坏。高频实际上是由解码器(播放器)产生的,SBR编码的数据更像是一种产生高频的命令集,或者称为指导性的信号源,这有点駇idi的工作方式。我们可以看到,mp3PRO其实是一种mp3信号流和SBR信号流的混合数据流编码。有关资料显示,SBR技术可以改善低数据流量下的高频音质,改善程度约为30%,我们不管这个30%是如何得来的,但可以事先预知这种改善可以让64kbps的mp3达到128kbps的mp3的音质水平(注:在相同的编码条件下,数据速率的提升和音质的提升不是成正比的,至少人耳听觉上是这样的),这和官方声称的64kbps的mp3PRO可以媲美128kbps的 mp3的宣传基本是吻合的。但这个编码方案没有获得各界的支持,基本早夭了。

    Fraunhofer Institute 后来还发布MP3环绕(多声道的MP3)以及MP3 HD(高清版的MP3)等等衍生方案,但都没有像MP3那样成为一个伟大的时代开启者。

    请评分
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    是不是DVD的播放需要预读?不过好像也有超强纠错的说法!
    发表于2009.09.11 11:24:44
    7
    114.246.***.***
    114.246.***.***
    cirrus logic当年在vcd时候专门注册了一个公司叫“死搞呗”,做超强纠错技术,还要往外壳上面贴个c-cube的logo,他们都知道这个是玩票的~
    看现在,不玩了吧,卖掉。继续做他们的adc/dac
    发表于2009.09.03 13:44:43
    6
    03
    发表于2009.09.02 14:14:03
    5
    你文章太少了,比小说更的还慢
    发表于2009.09.02 13:18:55
    2
    123.112.***.***
    123.112.***.***
    发表于2009.09.02 12:29:52
    1
    提示
    本贴不可匿名回复,回复等级为:1 ,您现在正处在潜水状态
    回复
    验证码
    3033 为防止广告机贴垃圾,不得已而为之
    表情
    正文