JVT(Joint Video
Team,視頻聯(lián)合工作組)于2001年12月在泰國Pattaya成立。他由ITU-T和ISO兩個國際標準化組織的有關(guān)視頻編碼的專家聯(lián)合組成。
JVT的工作目標是制定一個新的視頻編碼標準,以實現(xiàn)視頻的高壓縮比、高圖像質(zhì)量、良好的網(wǎng)絡(luò)適應性等目標。目前JVT的工作已被ITU-T接納,新的視
頻壓縮編碼標準稱為H.264標準,該標準也被ISO接納,稱為AVC(Advanced Video
Coding)標準,是MPEG-4的第10部分。
http://www./ffmpeg/articles/22850.aspx
H.264標準可分為三檔:
基本檔次(其簡單版本,應用面廣);
主要檔次(采用了多項提高圖像質(zhì)量和增加壓縮比的技術(shù)措施,可用于SDTV、HDTV和DVD等);
擴展檔次(可用于各種網(wǎng)絡(luò)的視頻流傳輸)。
H.264
不僅比H.263和MPEG-4節(jié)約了50%的碼率,而且對網(wǎng)絡(luò)傳輸具有更好的支持功能。他引入了面向IP包的編碼機制,有利于網(wǎng)絡(luò)中的分組傳輸,支持網(wǎng)
絡(luò)中視頻的流媒體傳輸。H.264具有較強的抗誤碼特性,可適應丟包率高、干擾嚴重的無線信道中的視頻傳輸。H.264支持不同網(wǎng)絡(luò)資源下的分級編碼傳
輸,從而獲得平穩(wěn)的圖像質(zhì)量。H.264能適應于不同網(wǎng)絡(luò)中的視頻傳輸,網(wǎng)絡(luò)親和性好。
一、H.264視頻壓縮系統(tǒng)
H.264標準壓
縮系統(tǒng)由視頻編碼層(VCL)和網(wǎng)絡(luò)提取層(Network Abstraction
Layer,NAL)兩部分組成。VCL中包括VCL編碼器和VCL解碼器,主要功能是視頻數(shù)據(jù)壓縮編碼和解碼,他包括運動補償、變換編碼、熵編碼等壓縮
單元。NAL則用于為VCL提供一個和網(wǎng)絡(luò)無關(guān)的統(tǒng)一接口,他負責對視頻數(shù)據(jù)進行封裝打包后使其在網(wǎng)絡(luò)中傳送,他采用統(tǒng)一的數(shù)據(jù)格式,包括單個字節(jié)的包頭
信息、多個字節(jié)的視頻數(shù)據(jù)和組幀、邏輯信道信令、定時信息、序列結(jié)束信號等。包頭中包含存儲標志和類型標志。存儲標志用于指示當前數(shù)據(jù)不屬于被參考的幀。
類型標志用于指示圖像數(shù)據(jù)的類型。
VCL能傳輸按當前的網(wǎng)絡(luò)情況調(diào)整的編碼參數(shù)。
二、H.264的特點
H.264和H.261、H.263相同,也是采用DCT變換編碼加DPCM的差分編碼,即混合編碼結(jié)構(gòu)。同時,H.264在混合編碼的框架下引入了新的編碼方式,提高了編碼效率,更貼近實際應用。
H.264沒有繁瑣的選項,而是力求簡潔的“回歸基本”,他具有比H.263++更好的壓縮性能,又具有適應多種信道的能力。
H.264的應用目標廣泛,可滿足各種不同速率、不同場合的視頻應用,具有較好的抗誤碼和抗丟包的處理能力。
H.264的基本系統(tǒng)無需使用版權(quán),具有開放的性質(zhì),能非常好地適應IP和無線網(wǎng)絡(luò)的使用,這對目前因特網(wǎng)傳輸多媒體信息、移動網(wǎng)中傳輸寬帶信息等都具有重要意義。
盡管H.264編碼基本結(jié)構(gòu)和H.261、H.263是類似的,但他在非常多環(huán)節(jié)做了改進,現(xiàn)列舉如下。
1.多種更好的運動估計
高精度估計
在H.263中采用了半像素估計,在H.264中則進一步采用1/4像素甚至1/8像素的運動估計。即真正的運動矢量的位移可能是以1/4甚至1/8像素為基本單位的。顯然,運動矢量位移的精度越高,則幀間剩余誤差越小,傳輸碼率越低,即壓縮比越高。
在H.264中采用了6階FIR濾波器的內(nèi)插獲得1/2像素位置的值。當1/2像素值獲得后, 1/4像素值可通過線性內(nèi)插獲得,
對于4:1:1的視頻格式,亮度信號的1/4 像素精度對應于色度部分的1/8像素的運動矢量,因此需要對色度信號進行1/8像素的內(nèi)插運算。
理
論上,如果將運動補償?shù)木仍黾右槐叮ɡ鐝恼袼鼐忍岣叩?/2像素精度),可有0.5bit/Sample的編碼增益,但實際驗證發(fā)目前運動矢量精
度超過1/8像素后,系統(tǒng)基本上就沒有明顯增益了,因此,在H.264中,只采用了1/4像素精度的運動矢量模式,而不是采用1/8像素的精度。
多宏塊劃分模式估計
在H.264的預測模式中,一個宏塊(MB)可劃分成7種不同模式的尺寸,這種多模式的靈活、細微的宏塊劃分,更切合圖像中的實際運動物體的形狀,于是,在每個宏塊中可包含有1、2、4、8或16個運動矢量。
多參數(shù)幀估計
在H.264中,可采用多個參數(shù)幀的運動估計,即在編碼器的緩存中存有多個剛剛編碼好的參數(shù)幀,編碼器從其中選擇一個給出更好的編碼效果的作為參數(shù)幀,并指出是哪個幀被用于預測,這樣就可獲得比只用上一個剛編碼好的幀作為預測幀的更好的編碼效果。
2.小尺寸4?4的整數(shù)變換
視頻壓縮編碼中以往的常用單位為8?8塊。在H.264中卻采用小尺寸的4?4塊,由于變換塊的尺寸變小了,運動物體的劃分就更為精確。這種情況下,圖像變換過程中的計算量小了,而且在運動物體邊緣的銜接誤差也大為減少。
當圖像中有較大面積的平滑區(qū)域時,為了不產(chǎn)生因小尺寸變換帶來的塊間灰度差異,H.264可對幀內(nèi)宏塊亮度數(shù)據(jù)的16個4?4塊的DCT系數(shù)進行第二次4?4塊的變換,對色度數(shù)據(jù)的4個4?4塊的DC系數(shù)(每個小塊一個,共4個DC系數(shù))進行2?2塊的變換。
H.263不僅使圖像變換塊尺寸變小,而且這個變換是整數(shù)操作,而不是實數(shù)運算,即編碼器和解碼器的變換和反變換的精度相同,沒有“反變換誤差”。
3.更精確的幀內(nèi)預測
在H.264中,每個4?4塊中的每個像素都可用17個最接近先前已編碼的像素的不同加權(quán)和來進行幀內(nèi)預測。
4.統(tǒng)一的VLC
H.264中關(guān)于熵編碼有兩種方法。
統(tǒng)一的VLC(即UVLC:Universal VLC)。UVLC使用一個相同的碼表進行編碼,而解碼器非常容易識別碼字的前綴,UVLC在發(fā)生比特錯誤時能快速獲得重同步。
內(nèi)容自適應二進制算術(shù)編碼(CABAC:Context Adaptive Binary Arithmetic Coding)。其編碼性能比UVLC稍好,但復雜度較高。
三、性能優(yōu)勢
H.264和MPEG-4、H.263++編碼性能對比采用了以下6個測試速率:32kbit/s、
10F/s和QCIF;64kbit/s、15F/s和QCIF;128kbit/s、15F/s和CIF;256kbit/s、15F/s和QCIF;
512kbit/s、30F/s和CIF;1024kbit/s、30F/s和CIF。測試結(jié)果標明,H.264具有比MPEG和H.263++更優(yōu)秀的
PSNR性能。
H.264的 PSNR比MPEG-4平均要高2dB,比H.263++平均要高3dB。
四、新的快速運動估值算法
新的快速運動估值算法UMHexagonS(中國專利)是一種運算量相對于H.264中原有的快
速全搜索算法可節(jié)約90%以上的新算法,全名叫“非對稱十字型多層次六邊形格點搜索算法”(Unsymmetrical-Cross
Muti-Hexagon
Search)”,這是一種整像素運動估值算法。由于他在高碼率大運動圖像序列編碼時,在保持較好率失真性能的條件下,運算量十分低,已被H.264標準
正式采納。
ITU和 ISO合作發(fā)展的 H.264(MPEG-4 Part 10)有可能被廣播、通信和存儲媒體(CD
DVD)接受成為統(tǒng)一的標準,最有可能成為寬帶交互新媒體的標準。我國的信源編碼標準尚未制定,密切關(guān)注H.264的發(fā)展,制定我國的信源編碼標準的工作
正在加緊進行。
H264標準使運動圖像壓縮技術(shù)上升到了一個更高的階段,在較低帶寬上提供高質(zhì)量的圖像傳輸是H.264的應用亮點。H.264的推廣應用對視頻終端、網(wǎng)守、網(wǎng)關(guān)、MCU等系統(tǒng)的需求較高,將有力地推動視頻會議軟、硬件設(shè)備在各個方面的不斷完善。
MPEG4視頻壓縮編碼技術(shù)詳解
MPEG全稱是Moving Pictures Experts
Group,他是“動態(tài)圖象專家組”的英文縮寫,該專家組成立于1988年,致力于運動圖像及其伴音的壓縮編碼標準化工作,原先他們打算研發(fā)MPEG1、
MPEG2、MPEG3和MPEG4四個版本,以適用于不同帶寬和數(shù)字影像質(zhì)量的需求。
目前,MPEG1技術(shù)被廣泛的應用于VCD,而MPEG2
標準則用于廣播電視和DVD等。MPEG3最初是為HDTV研發(fā)的編碼和壓縮標準,但由于MPEG2的出色性能表現(xiàn),
MPEG3只能是死于襁褓了。而我們今天要談論的主角??MPEG4于1999年初正式成為國際標準。他是個適用于低傳輸速率應用的方案。和MPEG1
和MPEG2相比,MPEG4更加注重多媒體系統(tǒng)的交互性和靈活性。下面就讓我們一起進入多彩的MPEG4世界。
MPEG4的技術(shù)特點
MPEG1、MPEG2技術(shù)當初制定時,他們定位的標準均為高層媒體表示和結(jié)構(gòu),但隨著計算機軟件及網(wǎng)絡(luò)技術(shù)的快速發(fā)展,
MPEG1.MPEG2技術(shù)的弊端就顯示出來了:交互性及靈活性較低,壓縮的多媒體文件體積過于龐大,難以實現(xiàn)網(wǎng)絡(luò)的實時傳播。而MPEG4技術(shù)的標準是
對運動圖像中的內(nèi)容進行編碼,其具體的編碼對象就是圖像中的音頻和視頻,術(shù)語稱為“AV對象”,而連續(xù)的AV對象組合在一起又能形成AV場景。因此,
MPEG4標準就是圍繞著AV對象的編碼、存儲、傳輸和組合而制定的,高效率地編碼、組織、存儲、傳輸AV對象是MPEG4標準的基本內(nèi)容。
在視頻編碼方面,MPEG4支持對自然和合成的視覺對象的編碼。(合成的視覺對象包括2D、3D動畫和人面部表情動畫等)。在音頻編碼上,MPEG4能在一組編碼工具支持下,對語音、音樂等自然聲音對象和具有回響、空間方位感的合成聲音對象進行音頻編碼。
由
于MPEG4只處理圖像幀和幀之間有差異的元素,而舍棄相同的元素,因此大大減少了合成多媒體文件的體積。應用MPEG4技術(shù)的影音文件最顯著特點就是壓
縮率高且成像清晰,一般來說,一小時的影像能被壓縮為350M左右的數(shù)據(jù),而一部高清晰度的DVD電影, 能壓縮成兩張甚至一張650M
CD光碟來存儲。對廣大的“平民”計算機用戶來說, 這就意味著, 你不必購置
DVD-ROM就能欣賞近似DVD質(zhì)量的高品質(zhì)影像。而且采用MPEG4編碼技術(shù)的影片,對機器硬件設(shè)置的需求非常之低,300MHZ
以上CPU,64M的內(nèi)存和一個 8M顯存的顯卡就能流暢的播放。在播放軟件方面,他需求也非常寬松,你只需要安裝一個 500K左右的 MPEG4
編碼驅(qū)動后,用 WINDOWS 自帶的媒體播放器就能流暢的播放了(下面我們會具體講到)。
視頻編碼研究和MPEG標準演進
人類獲取的信息中70%來自于視覺,視頻信息在多媒體信息中占有重要地位;同時視頻數(shù)據(jù)冗余度最大,經(jīng)壓縮處理后的視頻質(zhì)量高低是決定多媒體服務質(zhì)量的關(guān)鍵因素。因此數(shù)字視頻技術(shù)是多媒體應用的核心技術(shù),對視頻編碼的研究已成為信息技術(shù)領(lǐng)域的熱門話題。
視頻編碼的研究課題主要有數(shù)據(jù)壓縮比、壓縮/解壓速度及快速實現(xiàn)算法三方面內(nèi)容。以壓縮/解壓后數(shù)據(jù)和壓縮前原始數(shù)據(jù)是否完全一致作為衡量標準,可將數(shù)據(jù)壓縮劃分為無失真壓縮(即可逆壓縮)和有失真壓縮(即不可逆壓縮)兩類。
傳統(tǒng)壓縮編碼建立在仙農(nóng)信息論基礎(chǔ)之上的,以經(jīng)典集合論為工具,用概率統(tǒng)計模型來描述信源,其壓縮思想基于數(shù)據(jù)統(tǒng)計,因此只能去除數(shù)據(jù)冗余,屬于低層壓縮編碼的范疇。
伴隨著視頻編碼相關(guān)學科及新興學科的迅速發(fā)展,新一代數(shù)據(jù)壓縮技術(shù)不斷誕生并日益成熟,其編碼思想由基于像素和像素塊轉(zhuǎn)變?yōu)榛趦?nèi)
容
(content-based)。他突破了仙農(nóng)信息論框架的束縛,充分考慮了人眼視覺特性及信源特性,通過去除內(nèi)容冗余來實現(xiàn)數(shù)據(jù)壓縮,可分為基于對象
(object-based)和基于語義(semantics-based)兩種,前者屬于中層壓縮編碼,后者屬于高層壓縮編碼。
和此同時,視頻編碼相關(guān)標準的制定也日臻完善。視頻編碼標準主要由ITU-T和ISO/IEC研發(fā)。ITU-T發(fā)布的視頻標準有
H.261、 H.262、 H.263、 H.263+、H.263++,ISO/IEC公開的MPEG系列標準有MPEG-1、MPEG-2
、MPEG-4 和MPEG-7,并且計劃公開MPEG-21。
MPEG即Moving Picture Expert
Group(運動圖像專家組),他是專門從事制定多媒體視音頻壓縮編碼標準的國際組織。MPEG系列標準已成為國際上影響最大的多媒體技術(shù)標準,其中
MPEG-1和MPEG-2是采用以仙農(nóng)信息論為基礎(chǔ)的預測編碼、變換編碼、熵編碼及運動補償?shù)鹊谝淮鷶?shù)據(jù)壓縮編碼技術(shù);MPEG-4(ISO/IEC
14496)則是基于第二代壓縮編碼技術(shù)制定的國際標準,他以視聽媒體對象為基本單元,采用基于內(nèi)容的壓縮編碼,以實現(xiàn)數(shù)字視音頻、圖像合成應用及交互式
多媒體的集成。MPEG系列標準對VCD、DVD等視聽消費電子及數(shù)字電視和高清晰度電視(DTV&&HDTV)、多媒體通信等信息產(chǎn)業(yè)
的發(fā)展產(chǎn)生了巨大而深遠的影響。
MPEG-4視頻編碼核心思想及關(guān)鍵技術(shù)
核心思想
在MPEG-4制定之前,MPEG-1、MPEG-2、H.261、H.263都是采用第一代壓縮編碼技術(shù),著眼于圖像信號的統(tǒng)計
特性來設(shè)計編碼器,屬于波形編碼的范疇。第一代壓縮編碼方案把視頻序列按時間先后分為一系列幀,每一幀圖像又分成宏塊以進行運動補償和編碼,這種編碼方案
存在以下缺陷:
將圖像固定地分成相同大小的塊,在高壓縮比的情況下會出現(xiàn)嚴重的塊效應,即馬賽克效應;
不能對圖像內(nèi)容進行訪問、編輯和回放等*作;
未充分利用人類視覺系統(tǒng)(HVS,Human Visual System)的特性。
MPEG-4則代表了基于模型/對象的第二代壓縮編碼技術(shù),他充分利用了人眼視覺特性,抓住了圖像信息傳輸?shù)谋举|(zhì),從輪廓、紋理思路出發(fā),支持基于視覺內(nèi)容的交互功能,這適應了多媒體信息的應用由播放型轉(zhuǎn)向基于內(nèi)容的訪問、檢索及*作的發(fā)展趨勢。
AV對象(AVO,Audio Visual
Object)是MPEG-4為支持基于內(nèi)容編碼而提出的重要概念。對象是指在一個場景中能夠訪問和*縱的實體,對象的劃分可根據(jù)其獨特的紋理、運動、形
狀、模型和高層語義為依據(jù)。在MPEG-4中所見的視音頻已不再是過去MPEG-1、MPEG-2中圖像幀的概念,而是個個視聽場景(AV場景),這些
不同的AV場景由不同的AV對象組成。AV對象是聽覺、視覺、或視聽內(nèi)容的表示單元,其基本單位是原始AV對象,他能是自然的或合成的聲音、圖像。原
始AV對象具有高效編碼、高效存儲和傳輸及可交互*作的特性,他又可進一步組成復合AV對象。因此MPEG-4標準的基本內(nèi)容就是對AV對象進行高效編
碼、組織、存儲和傳輸。AV對象的提出,使多媒體通信具有高度交互及高效編碼的能力,AV對象編碼就是MPEG-4的核心編碼技術(shù)。
MPEG-4不僅可提供高壓縮率,同時也可實現(xiàn)更好的多媒體內(nèi)容互動性及全方位的存取性,他采用開放的編碼系統(tǒng),可隨時加入新的編碼算法模塊,同時也可根據(jù)不同應用需求現(xiàn)場設(shè)置解碼器,以支持多種多媒體應用。
MPEG-4 采用了新一代視頻編碼技術(shù),他在視頻編碼發(fā)展史上第一次把編碼對象從圖像幀拓展到具有實際意義的任意形狀視頻對象,從而實現(xiàn)了從基于像素的傳統(tǒng)編碼向基于對象和內(nèi)容的現(xiàn)代編碼的轉(zhuǎn)變,因而引領(lǐng)著新一代智能圖像編碼的發(fā)展潮流。
關(guān)鍵技術(shù)
MPEG-4除采用第一代視頻編碼的核心技術(shù),如變換編碼、運動估計和運動補償、量化、熵編碼外,還提出了一些新的有創(chuàng)見性的關(guān)鍵技術(shù),并在第一代視頻編碼技術(shù)基礎(chǔ)上進行了卓有成效的完善和改進。下面重點介紹其中的一些關(guān)鍵技術(shù)。
A. 視頻對象提取技術(shù)
MPEG-4實現(xiàn)基于內(nèi)容交互的首要任務就是把視頻/圖像分割成不同對象或把運動對象從背景中分離出來,然后針對不同對象采用相應編碼方法,以實現(xiàn)高效壓縮。因此視頻對象提取即視頻對象分割,是MPEG-4視頻編碼的關(guān)鍵技術(shù),也是新一代視頻編碼的研究熱點和難點。
視頻對象分割涉及對視頻內(nèi)容的分析和理解,這和人工智能、圖像理解、模式識別和神經(jīng)網(wǎng)絡(luò)等學科有密切聯(lián)系。目前人工智能的發(fā)展還不
夠完善,計算機還不具有觀察、識別、理解圖像的能力;同時關(guān)于計算機視覺的研究也表明要實現(xiàn)正確的圖像分割需要在更高層次上對視頻內(nèi)容進行理解。因此,盡
管MPEG-4
框架已制定,但至今仍沒有通用的有效方法去根本解決視頻對象分割問題,視頻對象分割被認為是個具有挑戰(zhàn)性的難題,基于語義的分割則更加困難。
目前進行視頻對象分割的一般步驟是:先對原始視頻/圖像數(shù)據(jù)進行簡化以利于分割,這可通過低通濾波、中值濾波、形態(tài)濾波來完成;然
后對視頻/圖像數(shù)據(jù)進行特征提取,能是顏色、紋理、運動、幀差、位移幀差乃至語義等特征;再基于某種均勻性標準來確定分割決策,根據(jù)所提取特征將視頻數(shù)
據(jù)歸類;最后是進行相關(guān)后處理,以實現(xiàn)濾除噪聲及準確提取邊界。
在視頻分割中基于數(shù)學形態(tài)理論的分水嶺(watershed)算法被廣泛使用,他又稱水線算法,其基本過程是連續(xù)腐蝕二值圖像,由
圖像簡化、標記提取、決策、后處理四個階段構(gòu)成。分水嶺算法具有運算簡單、性能優(yōu)良,能夠較好提取運動對象輪廓、準確得到運動物體邊緣的好處。但分割時需
要梯度信息,對噪聲較敏感,且未利用幀間信息,通常會產(chǎn)生圖像過度分割。
B. VOP視頻編碼技術(shù)
視頻對象平面(VOP,Video Object
Plane)是視頻對象(VO)在某一時刻的采樣,VOP是MPEG-4視頻編碼的核心概念。MPEG-4在編碼過程中針對不同VO采用不同的編碼策略,
即對前景VO的壓縮編碼盡可能保留細節(jié)和平滑;對背景VO則采用高壓縮率的編碼策略,甚至不予傳輸而在解碼端由其他背景拼接而成。這種基于對象的視頻編碼
不僅克服了第一代視頻編碼中高壓縮率編碼所產(chǎn)生的方塊效應,而且使用戶可和場景交互,從而既提高了壓縮比,又實現(xiàn)了基于內(nèi)容的交互,為視頻編碼提供了廣闊
的發(fā)展空間。
MPEG-4支持任意形狀圖像和視頻的編解碼。對于任意形狀視頻對象。對于極低比特率實時應用,如可視電話、會議電視,MPEG-4則采用VLBV(Very Low Bit-rate Video,極低比特率視頻)核進行編碼。
傳統(tǒng)的矩形圖在MPEG-4中被看作是VO的一種特例,這正體現(xiàn)了傳統(tǒng)編碼和基于內(nèi)容編碼在MPEG-4中的統(tǒng)一。VO概念的引
入,更加符合人腦對視覺信息的處理方式,并使視頻信號的處理方式從數(shù)字化進展到智能化,從而提高了視頻信號的交互性和靈活性,使得更廣泛的視頻應用及更多
的內(nèi)容交互成為可能。因此VOP視頻編碼技術(shù)被譽為視頻信號處理技術(shù)從數(shù)字化進入智能化的初步探索。
C. 視頻編碼可分級性技術(shù)
隨著因特網(wǎng)業(yè)務的巨大增長,在速率起伏非常大的IP(Internet
Protocol)網(wǎng)絡(luò)及具有不同傳輸特性的異構(gòu)網(wǎng)絡(luò)上進行視頻傳輸?shù)男枨蠛蛻迷絹碓蕉?。在這種背景下,視頻分級編碼的重要性日益突出,其應用非常廣
泛,且具有非常高的理論研究及實際應用價值,因此受到人們的極大關(guān)注。
視頻編碼的可分級性(scalability)是指碼率的可調(diào)整性,即視頻數(shù)據(jù)只壓縮一次,卻能以多個幀率、空間分辨率或視頻質(zhì)量進行解碼,從而可支持多種類型用戶的各種不同應用需求。
MPEG-4通過視頻對象層(VOL,Video Object
Layer)數(shù)據(jù)結(jié)構(gòu)來實現(xiàn)分級編碼。MPEG-4提供了兩種基本分級工具,即時域分級(Temporal
Scalability)和空域分級(Spatial
Scalability),此外還支持時域和空域的混合分級。每一種分級編碼都至少有兩層VOL,低層稱為基本層,高層稱為增強層。基本層提供了視頻序列
的基本信息,增強層提供了視頻序列更高的分辨率和細節(jié)。
在隨后增補的視頻流應用框架中,MPEG-4提出了FGS(Fine Granularity
Scalable,精細可伸縮性)視頻編碼算法及PFGS(Progressive Fine Granularity
Scalable,漸進精細可伸縮性)視頻編碼算法。
FGS編碼實現(xiàn)簡單,可在編碼速率、顯示分辨率、內(nèi)容、解碼復雜度等方面提供靈活的自適應和可擴展性,且具有非常強的帶寬自適應能力和抗誤碼性能。但還存在編碼效率低于非可擴展編碼及接收端視頻質(zhì)量非最優(yōu)兩個不足。
PFGS則是為改善FGS編碼效率而提出的視頻編碼算法,其基本思想是在增強層圖像編碼時使用前一幀重建的某個增強層圖像為參考進行運動補償,以使運動補償更加有效,從而提高編碼效率。
D. 運動估計和運動補償技術(shù)
MPEG-4采用I-VOP、P-VOP、B-VOP三種幀格式來表征不同的運動補償類型。他采用了H.263中的半像素搜索
(half pixel searching)技術(shù)和重疊運動補償(overlapped motion
compensation)技術(shù),同時又引入重復填充(repetitive padding)技術(shù)和修改的塊(多邊形)匹配(modified
block (polygon)matching)技術(shù)以支持任意形狀的VOP區(qū)域。
此外,為提高運動估計算法精度,MPEG-4采用了MVFAST(Motion Vector Field Adaptive
Search Technique)和改進的PMVFAST(Predictive
MVFAST)方法用于運動估計。對于全局運動估計,則采用了基于特征的快速頑健的FFRGMET(Feature-based Fast and
Robust Global Motion Estimation Technique)方法。
在MPEG-4視頻編碼中,運動估計相當耗時,對編碼的實時性影響非常大。因此這里特別強調(diào)快速算法。運動估計方法主要有像素遞歸法
和塊匹配法兩大類,前者復雜度非常高,實際中應用較少,后者則在H.263和MPEG中廣泛采用。在塊匹配法中,重點研究塊匹配準則及搜索方法。目前有三種
常用的匹配準則:
(1)絕對誤差和(SAD, Sum of Absolute Difference)準則;
(2)均方誤差(MSE, Mean Square Error)準則;
(3)歸一化互相關(guān)函數(shù)(NCCF, Normalized Cross Correlation Function)準則。
在上述三種準則中,SAD準則具有不需乘法運算、實現(xiàn)簡單方便的好處而使用最多,但應清晰匹配準則的選用對匹配結(jié)果影響不大。
在選取匹配準則后就應進行尋找最優(yōu)匹配點的搜索工作。最簡單、最可靠的方法是全搜索法(FS, Full
Search),但計算量太大,不便于實時實現(xiàn)。因此快速搜索法應運而生,主要有交叉搜索法、二維對數(shù)法和鉆石搜索法,其中鉆石搜索法被MPEG-4校驗
模型(VM, Verification Model)所采納,下面周詳介紹。
鉆石搜索(DS, Diamond
Search)法以搜索模板形狀而得名,具有簡單、魯棒、高效的特點,是現(xiàn)有性能最優(yōu)的快速搜索算法之一。其基本思想是利用搜索模板的形狀和大小對運動估
計算法速度及精度產(chǎn)生重要影響的特性。在搜索最優(yōu)匹配點時,選擇小的搜索模板可能會陷入局部最優(yōu),選擇大的搜索模板則可能無法找到最佳處。因此DS算法針
對視頻圖像中運動矢量的基本規(guī)律,選用了兩種形狀大小的搜索模板。
大鉆石搜索模板(LDSP, Large Diamond Search Pattern),包含9個候選位置;
小鉆石搜索模板(SDSP, Small Diamond Search Pattern),包含5個候選位置。
DS算法搜索過程如下:開始階段先重復使用大鉆石搜索模板,直到最佳匹配塊落在大鉆石中心。由于LDSP步長大,因而搜索范圍廣,
可實現(xiàn)粗定位,使搜索不會陷于局部最小,當粗定位結(jié)束后,可認為最佳處就在LDSP 周圍8
個點所圍菱形區(qū)域中。然后再使用小鉆石搜索模板來實現(xiàn)最佳匹配塊的準確定位,以不產(chǎn)生較大起伏,從而提高運動估計精度。
此外Sprite視頻編碼技術(shù)也在MPEG-4中應用廣泛,作為其核心技術(shù)之一。Sprite又稱鑲嵌圖或背景全景圖,是指一個視頻對象在視頻序列中所有出現(xiàn)部分經(jīng)拼接而成的一幅圖像。利用Sprite能直接重構(gòu)該視頻對象或?qū)ζ溥M行預測補償編碼。
Sprite視頻編碼可視為一種更為先進的運動估計和補償技術(shù),他能夠克服基于固定分塊的傳統(tǒng)運動估計和補償技術(shù)的不足,MPEG-4正是采用了將傳統(tǒng)分塊編碼技術(shù)和Sprite編碼技術(shù)相結(jié)合的策略。
MPEG4的應用領(lǐng)域
憑借著出色的性能,MPEG4技術(shù)目前在多媒體傳輸、多媒體存儲等領(lǐng)域得到了廣泛的應用,下面我們就來看看目前在那些領(lǐng)域MPEG4技術(shù)得到了大顯伸手的機會。
1、出色的視頻世界
出色的視頻世界是MPEG4技術(shù)應用最多也是最為廣大朋友所熟悉的的形式。目前他主要以兩種形式出現(xiàn),一種是DIVX-MPEG4影碟(國內(nèi)市面上已出現(xiàn),且D版居多),另一種是網(wǎng)上MPEG4電影。
(1)、
我們先來說說DIVX-MPEG4影碟,DIVX視頻編碼技術(shù)實際上就是MPEG4壓縮技術(shù),他由微軟MPEG4V3修改而來,使用的是MPEG4壓縮算
法,并同時分離視頻和音頻。他的核心部分便是由DivX對DVD音視頻進行壓縮,生成Mpeg4視頻格式文件(也就是AVI格式)。
小提示:筆者
也是經(jīng)常被朋友所問到:“我看到的MPEG4電影片段明明是avi(擴展名)格式文件,并且視窗系統(tǒng)的媒體播放器也和之關(guān)聯(lián),但就是無法播放”。其
實, MPEG4并沒有確定必須用什么擴展名,他只是一種編碼方法而已。使用avi作為擴展名,是一種習慣性的沿用。
在計算機上播放MPEG4影音文件的方法目前有兩種:第一種是用諸如DivxPlayer等專門的播放軟件來播放;第二種播放方法是安裝MPEG4(Divx)插件后,用視窗系統(tǒng)自帶的媒體播放機來播放。
(2)、
隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,互連網(wǎng)上的視頻流應用也成為了近幾年的熱門話題。目前,在互連網(wǎng)上比較流行的幾種影像格式包括Quicktime、
RealPlay及微軟的MediaPlayer等。MPEG4技術(shù)出現(xiàn)之后,互連網(wǎng)上又出現(xiàn)了MPEG4格式的電影,不過在觀看前,系統(tǒng)會提示你下載
最新的MPEG4解碼軟件。
小提示:大家平時在網(wǎng)上可能經(jīng)常會看見ASF格式的電影,其實他也是微軟公司研發(fā)出的一種能直接在網(wǎng)上觀看視頻節(jié)目的壓縮格式。使用的也是MPEG4的壓縮算法,但因為他是以網(wǎng)上即時觀看電影的視頻流格式存在的,所以他的圖像質(zhì)量相對要差一些。
2、低比特率下的多媒體通信,
目
前,MPEG4技術(shù)已廣泛的應用在如視頻電話、視頻電子郵件、移動通信、電子新聞等多媒體通信領(lǐng)域。由于這些應用對傳輸速率需求較低,一般在
4.8~64kbit/s之間,分辨率為176×144左右。因此MPEG4技術(shù)完萬能充分的利用網(wǎng)絡(luò)帶寬,通過幀重建技術(shù)壓縮和傳輸數(shù)據(jù),以最少的數(shù)
據(jù)量獲得最佳的圖像質(zhì)量。
3、實時多媒體監(jiān)視。
多媒體監(jiān)視領(lǐng)域原來一直是MPEG1技術(shù)擔當重任,但近些年來,他們也是“城頭變換大王
旗”了。由于MPEG4壓縮技術(shù)原本是一種適用在低帶寬下進行信息交換的音視頻處理技術(shù),他的特點是能動態(tài)的偵測圖像各個區(qū)域變化,基于對象的調(diào)整壓縮
方法能獲得比MPEG1更大的壓縮比,使壓縮碼流更低。因此,盡管MPEG4技術(shù)一開始并不是專為視頻監(jiān)視壓縮領(lǐng)域而研發(fā)的,但他高清晰度的視頻壓縮,
在實時多媒體監(jiān)視上,無能是存儲量,傳輸?shù)乃俾?,清晰度都比MPEG1具有更大的優(yōu)勢。
4、基于內(nèi)容存儲和檢索的多媒體系統(tǒng)。
由于
MPEG4在壓縮方法上遠遠優(yōu)于MPEG1技術(shù),更是MJPEG技術(shù)所不能比擬的。
經(jīng)過專家的測試表明,在相同清晰度對應MPEG1(500Kbits/sec)碼流情況下,
MPEG4比MPEG1節(jié)省了2/3的硬盤空間,在一般活動場景下也節(jié)省近一般的容量。因此無論是從內(nèi)容存儲量,還是從多媒體文件的檢索速度來說,
MPEG4技術(shù)都是多媒體系統(tǒng)應用的不二之選。
5、硬件產(chǎn)品上面的應用
目前,MPEG4技術(shù)在硬件產(chǎn)品上也已開始逐步得到應用。特別是在
視頻監(jiān)視、播放上,這項高清晰度,高壓縮的技術(shù)得到了眾多硬件廠商的鐘愛,而市場上支持MPEG4技術(shù)的產(chǎn)品也是種類繁多。下面筆者就列舉一些代表性的產(chǎn)
品,旨在讓讀者了解MPEG4技術(shù)在今天應用范圍之廣。
(1)、攝像機:日本夏普公司推出過應用在互連網(wǎng)上的數(shù)字攝像機VN-EZ1。這臺網(wǎng)絡(luò)攝像機利用MPEG4格式,可把影像文件壓縮為ASF(高級流格式),用戶只要利用微軟公司的MediaPlayer播放程式,就能直接在計算機上進行播放。
(2)、播放機:飛利浦公司于今年八月份推出了一款支持DivX的DVD播放機DVD737。他能支持DivX 3.11、4.xx、5.xx等MPEG4標準,而對于新標準的支持則能通過升級固件來實現(xiàn)。
(3)、數(shù)碼相機:日本京瓷公司在11月中旬發(fā)售其最新款數(shù)碼相機Finecam L30,這款是采用300萬像素、3倍光學變焦設(shè)計的數(shù)碼相機產(chǎn)品, L30采用了MPEG4格式動態(tài)視頻錄制,能讓動態(tài)視頻錄制畫面效果比傳統(tǒng)數(shù)碼相機更出色。
(4)、手機:在手機領(lǐng)域,MPEG4技術(shù)更是得到了廣泛的應用,各大手機廠商也都推出了可拍攝MPEG4動態(tài)視頻的手機型號,如西門子ST55、索尼愛立信P900/P908、LG 彩屏G8000等。
(5)、MPEG4數(shù)字硬盤:在今年深圳舉行的安防展覽會上,研發(fā)數(shù)字錄像監(jiān)視產(chǎn)品的廠家紛紛推出了他們的最新產(chǎn)品,而支持MPEG4的DVR壓縮技術(shù)也成為改展會上的亮點。
如北京華青紫博科技推出的“E眼神MPEG4數(shù)字視頻王”便是一款基于網(wǎng)絡(luò)環(huán)境的高清晰數(shù)字化監(jiān)視報警系統(tǒng)。內(nèi)置多畫面處理器,集現(xiàn)場監(jiān)視、監(jiān)聽、多路同時數(shù)字錄像和回放等多種功能為一體。
其實,市場上更有許多基于MPEG4技術(shù)的硬件產(chǎn)品,筆者這里就不一一列舉了,不過筆者相信,隨著視頻壓縮技術(shù)的不斷發(fā)展,MPEG4技術(shù)的產(chǎn)品會越來越多的出目前我們生活,工作中。