學習啦 > 論文大全 > 技術論文 > 數(shù)字視頻編碼技術論文

數(shù)字視頻編碼技術論文

時間: 家文952 分享

數(shù)字視頻編碼技術論文

  數(shù)字視頻編碼技術指通過特定的壓縮技術,將某個視頻格式的文件轉(zhuǎn)換成另一種視頻格式文件的方式。下面是學習啦小編整理的數(shù)字視頻編碼技術論文,希望你能從中得到感悟!

  數(shù)字視頻編碼技術論文篇一

  數(shù)字視頻編碼技術的研究綜述

  摘要:隨著流媒體技術、微電子技術、多媒體技術以及多媒體技術的快速發(fā)展,已經(jīng)出現(xiàn)很多智能終端。數(shù)字視頻編解碼算法在智能終端系統(tǒng)中起著核心的作用。該文對數(shù)字視頻壓縮標準的發(fā)展及現(xiàn)狀進行了闡述,然后對視頻編碼的基本原理進行必要的闡述,最后對可伸縮編碼技術進行詳細的闡述。

  關鍵詞:視頻編碼;視頻壓縮;可伸縮編碼

  中圖分類號:TP37 文獻標識碼:A 文章編號:1009-3044(2013)24-5528-04

  在過去的20年間,多媒體通信的發(fā)展是迅猛的。因為視頻是多媒體通信的核心,所以很多數(shù)字視頻壓縮算法不斷的推出,這使得視頻傳輸以及視頻存儲的效率也越來越高。新的視頻編碼標準也隨著音視頻壓縮技術的不斷發(fā)展而相繼產(chǎn)生。現(xiàn)在數(shù)字電視越來越普及,人們對視頻的質(zhì)量要求也越來越高。為了滿足人們對視頻的多樣化、高質(zhì)量的需求,ITU-T/VCEG與ISO/MPEG共同制訂了一系列的視頻壓縮編碼國際標準。這些標準在日常生活的應用又推動了視頻服務業(yè)務的發(fā)展。

  1 視頻編碼的發(fā)展及現(xiàn)狀

  數(shù)字視頻分辨率的提高使得原始數(shù)據(jù)量不斷增多,為了提高視頻編碼的壓縮效率,新的視頻編碼標準不斷推出。1984年CCITT第15研究組發(fā)布了數(shù)字基準電視會議編碼標準H.120建議。在1988年的時候,CCITT通過了視頻編碼標準H.261建議。H.261是視頻壓縮編碼的一個里程碑。從這以后,ISO及ITU-T等發(fā)布的基于波形的編碼標準中的編碼方法很多都是基于H.261的混合編碼。在1986年,聯(lián)合圖像專家組成立,對連續(xù)色調(diào)靜止圖像壓縮算法的國際標準進行研究,在1992年通過了JPEG標準。

  在1988年,活動圖像專家組成立。并在1991年MPEG-2編碼標準,主要在VCD的視頻壓縮中進行應用。在1994年公布的MPEG-2編碼標準,不同的碼率分別在不同檔次、不同級別的視頻壓縮中應用。MPEG-2已經(jīng)支持高清晰度視頻,但是要實現(xiàn)全面高清化還需要更高效的編碼技術。

  在1995年,ITU-T又推出了H.263編碼標準。主要用于可視會議和多媒體通信等低碼率視頻的傳輸。

  在1999年,ISO/IEC通過了MPEG-4編碼標準,此標準強調(diào)了多媒體通信的靈活性和交互性。

  在2003年,ISO/IEC和ITU-T公布H.264視頻壓縮標準,這個標準明顯提高了視頻壓縮效率,而且網(wǎng)絡親和性也很不錯,對誤碼及丟包的處理進行了加強。H.264增加了1/4精度預測、整數(shù)DCT變換等技術。

  在2007年,作為H.264/AVC標準可伸縮性擴展檔次的可伸縮性編碼SVC推出,根據(jù)要求將視頻分割成一個基本層和多個增強層。

  在2013年,HEVC成為國際標準,可以提供更好的視覺效果。HEVC對預測模型、變換技術等進行了擴展。

  2 視頻編解碼技術基礎

  在通用的視頻編碼框器中,一般使用一個編碼框架,但是使用多種壓縮編碼方法。不同壓縮編碼方法的原理也是不同的。這些編碼方法是視頻編碼的基本工具。本節(jié)主要對預測編碼,變換編碼及熵編碼的原理進行詳細介紹。

  2.1 預測編碼

  預測編碼是比較基本的編碼工具,常用的預測編碼方法有幀內(nèi)預測和幀間預測編碼。幀間預測是用于消除時間冗余,幀內(nèi)預測用于消除空間冗余。因為時間冗余遠遠大于時間冗余,下面主要對幀間預測進行闡述。

  2.1.1 預測編碼的基本概念

  預測編碼通過利用已知的信息對未知的信息進行猜測,對實際值和預測值之間的差值進行編碼。通過預測得到一個預測值,實際值減去預測值得到一個殘差:

  如果預測方法比較好,殘差值就會比較小,對殘差進行編碼的碼流也會比較小。在解碼端對殘差進行解碼,使用與編碼端相同的預測方法得到預測值,進而重構出原始圖像:

  通常情況下,可以利用若干已經(jīng)編碼圖像像素的線性組合來得到預測值??紤]圖像的特點,預測一般以塊為單位進行。需要將圖像按照規(guī)則分割成具有規(guī)則的塊。按照順序?qū)γ總€塊分別進行預測編碼。

  2.1.2 幀間預測編碼

  幀間預測的目的是去除時域的冗余信息,就是使用已經(jīng)編碼的圖像對現(xiàn)在要編碼的圖像進行預測。預測方法的合理性關系到殘差的大小。

  幀間預測中比較重要的兩個概念是運動估計和運動補償。運動估計就是尋找當前編碼的塊在已編碼圖像的最佳對應塊。并計算出對應塊之間的偏移即運動矢量。如果當前幀是P,參考幀是Pr ,當前編碼塊是B,在Pr中找到與B塊相減之后殘差最小的塊Br ,Br就是B的最佳匹配塊。這個過程稱為運動估計。運動矢量也需要采用合適的方法編碼到碼流中,這樣在解碼端才能解碼出原圖像。

  運動補償是由運動矢量及幀間預測方法得到當前幀的估計值的過程。它是對當前圖像的描述,說明當前圖像的每一塊怎么由其他參考圖像的像素塊得到。

  運動估計和運動補償都是消除時間冗余的重要方法。這兩者直接影響到重建圖像質(zhì)量及壓縮比。運動估計是動態(tài)過程,而運動補償只是一個靜態(tài)的描述。

  2.1.3 運動估計

  運動估計有兩種模型:非參數(shù)模型和參數(shù)模型。

  非參數(shù)模型是一種把非參數(shù)的平滑度約束條件附加到二維運動場得到的運動估計模型。根據(jù)約束條件的種類可以分為確定性模型和隨機性模型。常見的有貝葉斯法、塊匹配法等。實際中的很多運動估計算法都是基于非參數(shù)模型。

  參數(shù)模型主要對三維運動物體在圖像平面上的正交或透視投影進行描述。參數(shù)模型只對三維剛體的運動估計適用。

  2.2 變換編碼

  變換編碼的編碼效率要比預測編碼高。K-L變換、傅里葉變換等算法出現(xiàn)比較早,壓縮效率高,但因高復雜度沒有得到廣泛應用。離散余弦變換是首個廣泛應用的變換編碼算法。因為離散余弦變換不需要求解特征向量,大大降低了復雜度。   2.2.1變換編碼基本原理

  變換編碼對信號的樣本值進行某種形式的函數(shù)變換,從一種空間變換到另一種空間,后根據(jù)信號在一個空間域的特征對信號進編碼壓縮。變換系統(tǒng)有三個步驟:預處理,變換及量化編碼。變換本身并不壓縮數(shù)據(jù),只是把信號變換到另一個域,變換之后的信號更獨立,更有序,比較容易壓縮。變換編碼中,輸入函數(shù)和輸出函數(shù)不同是因為量化誤差形成的。量化編碼在變換編碼系統(tǒng)中是不可缺少的,量化使數(shù)據(jù)得以壓縮。為了使量化失真最小化可以針對不同的分量使用不一樣的量化方式。

  2.3熵編碼

  熵編碼的思想是對出現(xiàn)概率大的符號取較短的碼長,出現(xiàn)概率小的符號取較大的碼長。熵編碼的基本定理對平均碼長的極限進行了描述。

  熵編碼基本定理是在對信源進行二進制編碼時,假使aj的編碼長度是Lj,在Lj=-log2Pj時,平均碼長取最小值H(X),H(X)是信源的熵?;径ɡ碛靡韵鹿奖硎荆?/p>

  L=∑PjLj≥H(X)

  熵編碼在實際的壓縮編碼中很難達到熵值,越接近熵值,壓縮效果就越好,壓縮比越高。

  3 可伸縮編碼技術

  3.1 可伸縮編碼的發(fā)展及含義

  可伸縮編碼技術已經(jīng)有20年的歷史,早起出現(xiàn)的H.262/MPEG-2,H.263,MPEG-4有若干工具能夠滿足一些比較重要的可伸縮性需求,但是因為解碼器的復雜度過高,在實現(xiàn)空間,質(zhì)量可伸縮時的編碼效率低下,編碼質(zhì)量存在階躍性突變等問題,故以上可伸縮編碼技術沒有獲得廣泛的應用。

  SVC技術因為可以節(jié)省傳輸帶寬,能夠自適應解碼顯示,所以具有廣闊的發(fā)展前景。以下介紹主要針對SVC。

  在實際的視頻應用中,傳輸?shù)膸捠窃诓粩喟l(fā)生變化的,各種終端的需求也不同,為了滿足實際需求,可伸縮編碼就產(chǎn)生了??缮炜s性編碼將輸入的視頻序列編碼為一個基本層,多個增強層?;緦拥囊曨l質(zhì)量比較低,增強層的視頻質(zhì)量比較高。服務器可以根據(jù)需求發(fā)送對應的數(shù)據(jù)。接收端根據(jù)接受到的數(shù)據(jù)解碼出對應質(zhì)量視頻。

  3.2 可伸縮編碼的分來

  實現(xiàn)可伸縮視頻編碼的方法比較常見的有三種:時間可伸縮,空間可伸縮以及質(zhì)量可伸縮。這三種編碼方法的實現(xiàn)原理是不同的,所以編碼方法的性能也是不同的。這三種方法的性能一般和特定的參數(shù)是緊密相關的。時間可伸縮中GOP的作用是至關重要的,空間可伸縮的層間預測則較為重要。時間可伸縮以幀率角度進行編碼,空間可伸縮以分辨率角度進行編碼,質(zhì)量可伸縮以量化步長的角度進行編碼。下面對這三種比較常見的壓縮編碼方法進行闡述。

  3.2.1時間可伸縮編碼

  時域可伸縮根據(jù)人眼對聯(lián)系性圖像的響應時間,在基本幀率和最高幀率之間提供幀率可伸縮。如果網(wǎng)絡帶寬比較窄,則接受基本幀率的視頻;如果網(wǎng)絡帶寬比較大,則同時接受基本幀率和高幀率視頻,解碼出的視頻比只接受基本幀率的視頻的質(zhì)量要好。時間可伸縮是通過等級B圖像,運動補償時域濾波編碼實現(xiàn)的。不同層量化參數(shù)的選擇對等級B圖像的編碼效率影響是非常大的?;緦邮怯申P鍵幀組成的,所以要選擇最小的量化參數(shù);增強層對別層的影響較基本層要小,可以選擇稍大的量化參數(shù)。等級越高,量化參數(shù)對應的就越大。

  3.2.2空間可伸縮編碼

  空間可伸縮編碼將輸入的原始視頻序列進行下采樣,從而得到低分辨率的視頻。不同的空間分辨率形成不同的編碼層。在空間分辨率的基礎上可進而實現(xiàn)時間可伸縮和質(zhì)量可伸縮。每層的編碼時互相獨立的,編碼參數(shù)壓實相互獨立的,比如說運動信息,量化參數(shù)及變換參數(shù)等。空間可伸縮編碼有三種預測方式:層間幀內(nèi)預測,層間運動預測及層間殘差預測。

  3.2.2.1層間幀內(nèi)預測

  在對增強層的宏塊進行編碼時,首先需要確定當前宏塊是否存在與之對應的基本層宏塊;如果存在基本層宏塊,再繼續(xù)判斷是否使用幀內(nèi)預測。如果使用幀內(nèi)預測,則對基本層宏塊進行上采樣之后,作為增強層宏塊的預測塊。

  3.2.2.2層間運動預測

  層間運動預測分為基本層模式,1/4像素修正模式。在基本層模式中,增強層的運動矢量,宏塊分割等信息是由相對應基本層宏塊提供的。基本層宏塊的運動信息放大后可以直接應用在增強層宏塊。在使用1/4像素修正模式時,基本層運動矢量信息要在增強層的1/4精度內(nèi)進行適當?shù)恼{(diào)整。層間預測的使用可以大量減少層內(nèi)運動估計,模式判斷。

  3.2.2.3層間殘差預測

  層間殘差預測使用基本層的預測殘差信息對增強層的殘差信息進行預測,對兩者之間的差值進行編碼。只有在基本層和增強層的運動矢量信息相似或相等的情況下,兩層之間的殘差的相關性才會比較大,使用層間殘差預測才會比較合適。如果兩層運動矢量的差異性比較大,則不適合使用層間殘差預測,此時,很有可能會降低編碼效率。

  3.2.3質(zhì)量可伸縮編碼

  質(zhì)量可伸縮編碼有兩種:精細可伸縮編碼和粗粒可伸縮編碼。兩者的思想,架構都是相同的。

  精細可伸縮編碼(FGS,F(xiàn)ine Granular Scalable)的核心思想是通過使用增強層的圖像作預測參考幀,從而提高編碼效率。FGS將原始視頻壓縮為基本層碼流,增強層碼流兩個碼流?;緦硬捎玫氖莻鹘y(tǒng)的非可伸縮編碼。增強層采用的是位平面編碼技術,解碼端根據(jù)接受到增強層數(shù)據(jù)解碼質(zhì)量不同的視頻序列。FGS的核心算法是基于DCT系數(shù)的位平面編碼。

  粗粒可伸縮編碼(CGS,Coarse Grain Scalability)的編碼結構和空間可伸縮式非常相似的。但是CGS的增強層的空間分辨率是相同的,而且增強層的量化系數(shù)一般比基本層的要小,因此食品質(zhì)量伴著層級的遞增就越來越好。編碼框架如下所述:對原始圖像進行DCT變換之后進行量化參數(shù)比較大的粗量化,然后進行熵編碼,熵編碼后形成基本層數(shù)據(jù)。然后把粗量化的數(shù)據(jù)進行反量化,原始圖像DCT與之作差。然后對差值進行量化參數(shù)比較小的細量化,進行熵編碼之后形成增強層的數(shù)據(jù)。量化參數(shù)大,解碼出來的視頻質(zhì)量比較差;量化參數(shù)小,解碼出來的圖像的質(zhì)量比較好。   3.3 SVC在數(shù)字電視的應用

  現(xiàn)在數(shù)字電視采用的編碼標準大部分是MPEG-2,SVC還沒有在數(shù)字電視中推廣起來,因為SVC不被老式機頂盒所支持,所以這種不兼容性也在一定程度上造成了新標準使用的延遲。

  4 結束語

  隨著視頻編碼的不斷發(fā)展,可分級視頻編碼是近幾年來的研究熱點,它是解決現(xiàn)代視頻傳輸和存儲系統(tǒng)中異構問題的非常重要的手段。該文首先對視頻編碼的發(fā)展及現(xiàn)狀進行詳細的說明,然后對視頻編碼的基本原理進行必要的說明。最后對可伸縮編碼分類及每個類別進行詳細的闡述。

  視頻編碼技術不斷發(fā)展,新的編碼標準也在不斷的推出?,F(xiàn)在,視頻編碼也在面臨新的挑戰(zhàn)。

  1) 網(wǎng)絡視頻應用對視頻編碼碼流的“友好性”提出了更高層次的要求。

  2) 高清晰度、高質(zhì)量視頻的推廣和普及對視頻編碼壓縮效率提出了更高層次的要求。

  綜上所述,這兩個挑戰(zhàn),將是當前和未來視頻編碼技術的研究中需要解決的比較重要的課題。

  參考文獻:

  [1] 李德識,李薇.無線傳感器網(wǎng)絡中覆蓋問題的研究[J].微電子學與計算機,2005,22(8):150-152.

  [2] 畢厚杰. 新一代視頻壓縮編碼標準H.264[M].北京:人民郵電出版社,2004.

  [3] 吳俊峰. H_264SVC可伸縮視頻編碼及轉(zhuǎn)碼技術研究[D].天津大學,2008.

  [4] JVT. ISO/ETC 14496-10:2010 Information Technology — Coding of Audio-Visual Objects — Part 10: Advanced Video Coding. 2010

  [5] 陳靖,劉京,曹喜信.深入理解視頻編解碼技術[M].北京:北京航空航天大學出版社,2012.

  [6] JVT-X202. Joint Scalable Video Model JSVM-11. 2012

  [7] 鐘玉琢,王琪,趙黎,楊小勤.MPEG-2運動圖像壓縮編碼國際標準及MPEG的新發(fā)展[M].北京:清華大學出版社,2002.

  [8] 柳輝.可伸縮性視頻編碼的轉(zhuǎn)碼及其應用[D].中國科技大學,2009.

  [9] 王偉超.基于MPEG_2的多視點視頻可分級實時解碼器研究[D].天津大學,2009.

  [10] ITU-T and ISO/IEC JTC1.Joint Scalable Video Model JSVM-9.19,2011.

點擊下頁還有更多>>>數(shù)字視頻編碼技術論文

2718617