您的位置 首页 电源

根据流水线及混合滤波技能的H.264去块效应模块规划

引 言图像的编解码技术是多媒体技术的关键,H.264/AVC是国际上最先进的视频压缩技术,其主要特点是采用小尺寸整数余弦变换、1/4像素的运动估计精度、多参考帧预测,基于上下文可变长度编码和环路内去块

引 言

图画的编解码技能是多媒体技能的要害,H.264/AVC是国际上最先进的视频压缩技能,其主要特点是选用小尺度整数余弦改换、1/4像素的运动估量精度、多参阅帧猜测,依据上下文可变长度编码和环路内去块效应滤波器等技能。因为去块效应滤波器大约占整个解码器1/3的运算量,因此该部分的规划成为整个解码器规划的瓶颈,在此研讨了一种新颖的环路内去块效应滤波器规划。规划中选用5阶流水线的去块效应模块,运用混合滤波次第与打乱的存储更新机制的办法进步了流水线畅顺性,滤波一个16×16巨细的宏块仅需求198个时钟周期。

1 H.264/AVC的去块效应

在依据块的视频编码办法中,各个块的编解码是彼此独立的,因为猜测、补偿、改变、量化等引起块与块之间的鸿沟处会发生不接连,因此新版H.264/AVC规范选用了环路内去块滤波器来处理每个16×16宏块重建后的鸿沟歪曲问题。去块效应滤波有两种办法:后处理去块效应滤波;环路内去块效应滤波。H.264/AVC选用环路内去块效应滤波(见图1),即滤波后的帧作为后边猜测的参阅帧。与之前的H.263或MPEG的滤波器比较较,新版H.264规范选用的滤波器依据更小的4×4的根本宏块,根本宏块的鸿沟依据片级/宏块级的特性与依据像素穿过滤波鸿沟的突变度,对需求滤波的宏块鸿沟进行有条件的滤波。重建帧的每个像素都需求从外部存储器中重调出来以进行滤波处理或作为相邻像从来判别当时像素是否需求进行滤波。明显,这些操作需求耗费巨大的存储器带宽,对像素值进行修正。

12.jpg

本文规划的去块效应滤波模块选用流水线技能来进步体系吞吐量。抱负流水线的高功率完结依据相邻的滤波操作没有数据性。文献[3,4]选用了非流水线的架构,因此无法进步体系的吞吐量。而关于流水线架构,如若不优化滤波次第与存储器拜访次第,则所发生的数据与结构冒险也将大大下降流水线的功率。有人运用双端口的片上SRAM来削减片外存储器的带宽,添加了体系的吞吐量,可是双端口存储器面积较大且添加功耗。与流水线的滤波器比较,非流水线滤波器的操作(包含条件判别、查表、像素核算等)是次第化的,即每个时钟仅处理一个操作类型,因此它所能到达的最大体系频率要低许多。

选用不同的鸿沟滤波次第,会大大的影响去块效应滤波器的功能。在H.264/AVC规范中,每个宏块的滤波次第得到了描绘,只需坚持滤波数据依靠性,H.264/AVC规范所描绘的滤波次第能够被改善。其滤波次第包含两类:次第滤波和混合滤波。可是其滤波次第以及相应的存储更新机制都是针对非流水线结构的,因此假如直接将之运用于本文的流水线规划,就有或许引发严峻的竞赛与冒险然后下降流水线的功能。

2 去块效应滤波器的存储办理与滤波算法

H.264/AvC规范依据4×4宏块作为滤波的根本宏块,它有5种滤波强度,别离是Bs=0,1,2,3,4。滤波办法分为强滤波、规范滤波和直通3种办法,其间强滤波影响鸿沟两头的共6个像素,规范滤波影响鸿沟两头的共4个像素,直通办法不修正鸿沟两头的像素。H.264/AVC规范规则先对笔直鸿沟进行滤波,然后再对水平鸿沟进行滤波,只要对笔直与水平鸿沟悉数滤波完结后,才能够对下一个宏块进行滤波。同一个宏块中,先对亮度部分进行滤波,再对色度部分进行滤波;色度部分滤波时,先对C6部分进行滤波,再对Cr部分进行滤波,对整个16×16宏块的滤波次第如图2所示。

13.jpg

(1)鸿沟滤波强度与像素滤波的存储器

依照H.264/AVC的规范,需求对被滤波的鸿沟两头的像素进行有条件的滤波。该条件决定于鸿沟强度BS与像素穿越鸿沟的倾斜度。鸿沟强度BS:0,1,2,3或4,在进行滤波之前被赋给相应的鸿沟。BS=4表明强滤波,BS=0表明不需求进行滤波,即直通办法;不然,BS=1,2,3表明中等强度的滤波,色度部分鸿沟的滤波强度与对应亮度部分是相同的。滤波每条水平或笔直鸿沟需求被供给鸿沟两头的8个像素,p0~p3q0~q3;需求更新的像素共6个或4个:p0~p2q0~q2或声p0,p1q0,q1。

对一个16×16宏块进行滤波需求供给左面相邻像素、右边相邻像素和本宏块的像素。关于宏块鸿沟,比方最左鸿沟与最右鸿沟而言,p0~p3与q0~q3来自不同的模块(即别离来自相邻宏块的像素与本宏块的像素);关于非16×16宏块的鸿沟滤波,像素p0~p3与q0~q3均来自16×16宏块自身,因此至少需求4个存储单元:左相邻像素存储单元、上相邻像素存储单元、自身模块的像素存储单元和转化缓冲单元,每个存储单元的带宽是32位。

当滤波从笔直鸿沟向水平鸿沟改换时,为了便利滤波进程中的存储器拜访,这儿运用额定的转化缓冲器BUF0~BUF3来缓存中心滤波数据,选用转化缓冲器后获取一行或一列像素的值(即p0~p3q0~q3)只需求1个时钟周期,不然需求4个时钟周期。

(2)滤波算法

环路滤波的根本思想是:判别该鸿沟是图画的实在鸿沟仍是编码所构成的块效应鸿沟;对实在鸿沟不滤波,对伪鸿沟依据像素穿越鸿沟的突变度和编码办法进行滤波;依据滤波强度,挑选不同的滤波系数对鸿沟两头像素进行滤波操作。滤波强度Bs=0的鸿沟将不会进行滤波,而滤波强度Bs不为0的鸿沟,依靠于获取的量化参数α与β,进行阈值判别,对附近的像素进行有条件的滤波。当滤波强度Bs不是0,而且下面3个条件建立时,才对附近像素进行滤波。

14.jpg

像素p1仅在式(3)建立的时分进行修正,同p0与q0修正的办法相同;而像素p2与q2关于滤波强度Bs不为4的情况下,不进行滤波。在色度重量进行滤波时,只要对p0与q0进行滤波,滤波的办法与亮度滤波的办法相同。

3 流水线滤波架构

3.1 流水线剖析

流水线技能适合于接连的批处理使命,当一个N阶流水线被灌满今后,体系在一个周期内能够并行处理N个使命,由此进步了整组使命的处理速度并增大了体系吞吐能力。假如相邻的滤波操作没有数据竞赛,而且一切的阶段都被很好地进行了平衡,则滤波进程能够被进行流水线操作化并可将速度进步N倍数。可是,如若存在竞赛与冒险问题,则无法完结。此刻的主要使命是怎么均衡流水线的各个阶段,怎么把总的操作尽或许均匀的分配给不同的流水线阶段,怎么防止或消除竞赛与冒险,以便获得一个比较平衡畅顺的流水线架构。依照去块效应滤波器模块的完结算法,大多数的要害途径坐落以下操作中。

(1)查找表操作:获得α,β,c1参数。α,β参数均需在查找表操作之前进行依据量化参数与片级偏移参数的核算中运用。当Bs=1,2,3时,为获取c1进行LUT操作,该操作比获取α,β的LUT操作大3倍。

(2)当Bs=4时,需用4或5抽头的滤波器进行滤波,本来的p,q像素值需求进行移位、相加等操作,以得到最终的成果。

3.2 流水线架构

依据上述剖析,这儿提出了5阶流水线以进步吞吐量,见图3。因为整个使命被分配到不同的阶段完结,下降滤波的均匀时刻。

15.jpg

4 阶流水线每个阶段的使命

阶流水线每个阶段的使命为:获取像素与滤波强度;阈值判别;预滤波;二次滤波;回写。操作类型转化与可重新配置途径规划:首要进行操作类型的改换,运用加法与移位操作硬件替换了本来一切的乘法与除法硬件。当Bs=4时,滤波被3,4,5抽头的滤波器履行,虽然运用不同抽头数意图滤波器,仍考虑硬件复用以及输入数据途径重新配置。因为规划中的表达式选用两输入加法,因此能够共用加法的中心成果。此外,经过重新配置在不同滤波抽头系数时的加法器的输入,到达同享资源的意图。同理,当Bs=1,2,3时,经过输入途径的重新配置,相同到达同享加法与减法器,到达同享资源的意图,资源运用前后比照见表1。

16.jpg

5 流水线竞赛与混合滤波次第

5.1 流水线竞赛的原因

(1)数据竞赛:当意图成果需求用作源操作数时;

(2)结构竞赛:因为有限的存储器带宽,很多而频频的像素拜访需求以及存储器的低功率办理而引起;

(3)操控竞赛:相邻鸿沟的滤波是相对独立的,当一条鸿沟进入它的流水线阶段时,它不能够中止,直到它的第5阶段新像素值回写存储器操作结束。操控竞赛,因为分支句子或推迟等候引起的。

5.2 一种新颖的混合滤波次第

传统的规划依照H.264/AVC规范运用了根本的次第滤波,没有考虑到相邻滤波鸿沟的数据重用与数据彼此依靠性以及存储器的读与写拜访延时,因此这儿提出了新颖的滤波办法。新颖的滤波次第依然恪守先左后右,先上后下的准则,可是考虑了相邻鸿沟的数据依靠性与重用性,处理了数据冒险与结构冒险问题,防止了流水线的推迟。滤波包含亮度部分与色度部分,共48条鸿沟,滤波次第依照如图4所示的从小到大的数字进行。

17.jpg

5.3 新颖的存储更新战略

考虑到外部存储器的带宽是32位的,为了合作这儿提出的鸿沟滤波次第,防止因为存储器的带宽约束而引起的结构竞赛然后导致流水线呈现推迟,这儿提出了新颖的存储器更新机制,即给不同的4×4宏块分配不同的时隙进行像素回写。

去块效应模块被分配在整个解码模块的最终一步完结,而其它的重建过程、像帧内滤波模块、帧间滤波模块均以4×4宏块为根本单位来进行流水线处理,可是因为去块效应滤波模块中不同鸿沟之间的数据依靠联系,因此它是以整个16×16宏块为根本单位进行滤波的。此外,只要整个16×16宏块的像素重建结束之后.才能够进行该宏块的滤波,因此运用了2个SRAM,一个为像素重建供给像素;另一个为像素滤波供给像素,当一个宏块被处理结束,两个SRAM交流人物,这样防止在两个SRAM之间传递数据导致的时刻与功耗开支。运用仿真东西对整个去块效应顶层模块DF_top进行了仿真,仿真部分成果如图5所示。

18.jpg

6 结 语

运用硬件描绘言语完结了规划,并在FPGA渠道上得到验证。规划选用流水线技能,混合滤波办法,合作新颖的存储器更新机制等计划,实时滤波频率上限约为200 MHz,吞吐量为滤波每个16×16宏块需求198个时钟周期。运用HJTC,CMOS工艺,运用Syn-opsys Co.的DC东西进行归纳,时序剖析以及功耗剖析,结论是时序满意收敛要求,而且完结单个宏块的滤波耗费的能量大约为2μW,功耗得到了很大的下降。

声明:本文内容来自网络转载或用户投稿,文章版权归原作者和原出处所有。文中观点,不代表本站立场。若有侵权请联系本站删除(kf@86ic.com)https://www.86ic.net/dianyuan/280413.html

为您推荐

联系我们

联系我们

在线咨询: QQ交谈

邮箱: kf@86ic.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

返回顶部