您的位置 首页 5G

根据Altera浮点IP核完成浮点矩阵相乘运算的改善规划

嵌入式计算作为新一代计算系统的高效运行方式,应用于多个高性能领域,如阵列信号处理、核武器模拟、计算流体动力学等。在这些科学计算中,需要大量的浮点矩阵运算。而目前已实现的浮点矩阵运算是直接使用VHDL语

嵌入式核算作为新一代核算体系的高效运转方法,应用于多个高功能范畴,如阵列信号处理、核武器模仿、核算流体动力学等。在这些科学核算中,需求很多的浮点矩阵运算。而现在已完结的浮点矩阵运算是直接运用VHDL言语编写的浮点矩阵相乘处理单元[1],其要害技术是乘累加单元的规划,这样规划的硬件,其功能依赖于规划者的编程水平。此外,FPGA厂商也推出了必定规划的浮点矩阵运算IP核[2],尽管此IP核应用了本厂家的器材,并经过专业调试和硬件实测,功能安稳且优于手写代码,但仍可对其进行改善,以进一步进步运算速度。

1 Altera点矩阵相乘IP核原理

Altera公司推出的浮点矩阵相乘IP核ALTFP_MATRIX_MULT,是在Quartus软件9.1版别以上的环境中运用,能够进行必定规划的浮点矩阵相乘运算,包括A、B矩阵数据输入,数据浮点乘加,数据缓存及相加输出四大部分。其间最能体现浮点核算功能的是浮点乘加部分,而周围的操控电路及输出则影响到体系的最高时钟频率,间接地影响体系全体功能。

整个矩阵相乘电路原理是将输入的单路数据(A、B矩阵共用数据线),经过操控器发生A、B矩阵地址信号,操控着A矩阵数据输出和B矩阵数据输出,并将数据并行分段输出到浮点乘加模块进行乘加运算,之后串行输出到一个缓存器模块中,再以并行方法输出到浮点相加模块,最终取得核算成果。从其原理能够看出,在数据输入输出方面仍有许多可改善的当地。

2 IP核存在的缺点及改善

2.1 存在缺点

(1)输入数据带宽的不均衡性。在矩阵A、B的数据输入时,Altera的IP核将A矩阵数据存于M144K的Block RAM中,而将B矩阵数据存于M9K的Block RAM中,导致IP核中A矩阵数据的带宽小于B矩阵数据的带宽,并需求必定数量的存放器组使A矩阵数据带宽能够匹配于B矩阵数据带宽。由此可见,A、B矩阵数据的存储遭到器材束缚和存储束缚,一起由于在浮点乘加模块的输入端(A、B矩阵数据)带宽不同,形成A矩阵数据的输入需求额定的处理时刻。

(2)加载数据的不连接性。在矩阵数据加载时,IP核经过将数据分段成等分的几部分,用于向量相乘。由于矩阵A存储带宽窄需求4步存放(由Blocks决议),在第3个周期时才加载数据B用于核算,送到一个FIFO中存储;在第6个时钟周期时加载矩阵A分段的第二部分进行各自的第二部分核算,最终当核算到第15个周期时,才可经过浮点相加,核算出矩阵C的榜首个值,之后核算出矩阵C的其他值C11。从上述结构可见,在分段相乘之后,选用先对一个FIFO进行存储,存满后再对下一个数据FIFO进行存储,形成时刻上糟蹋过多。

2.2 规划改善

鉴于上述缺点,在输入A、B矩阵的存储方法上,进行串行输入到并行输入的改善,使得两个矩阵能同步输入到浮点乘加模块。在数据加载方法上,将A矩阵用3个周期加载结束,再处理相乘运算;将分段相乘成果进行直接存储相加,取得C矩阵的榜首个值,减缩运算时刻。规划的改善框图如图1所示。

根据Altera浮点IP核完结浮点矩阵相乘运算的改善规划

将A、B矩阵数据加载模块规划成同步加载的方法,即在loadaa为高电平时,对A的榜首组数据进行初始化,加载到双口RAM模块存储;在loadbb为高电平时,加载B矩阵的数据,也进行双口RAM存储。然后根据ROM存储的地址信号表,在操控模块的操控下输出A、B矩阵地址相对应的数据,进行浮点乘加运算,之后串行缓存,并行输出到浮点相加模块,进行输出。核算时序如图2所示。

根据Altera浮点IP核完结浮点矩阵相乘运算的改善规划

在时序上要求初始化加载A矩阵的榜首行数据A1、A2、A3之后,加载B矩阵的榜首列数据,当分段E1加载后当即进行分段榜首组数据相乘A1×E1。以此类推,当加载A的第二行数据时,即可当即与B矩阵的榜首列数据相乘。全体而言,只需求在ROM模块中存储必定的地址信号,即可使浮点乘加模块的输入端具有并行连接的数据输入,缩短了运算时刻。

3 浮点矩阵相乘完结

3.1 模块全体完结

依照上述改善计划,ROM地址表在操控模块的操控下发生一组地址信号操控双口RAM组进行并行输出,确保了浮点乘加模块核算的准确性。其间操控模块为规划的要害部分,用于发生一切模块的操控信号,完结同步核算。分为a_cntrl、b_cntrl、cache、outcntrl四部分操控信号以及一路计数信号用于ROM地址查询,内部由一个状态机和逻辑单元组成,状态机用于发生矩阵A、B的read开端、latch锁存、地址叠加信号的转化。操控模块的时序仿真如图3所示。

图3在大局同步信号时钟sysclk、复位reset、使能enable的效果下,当calcmatrix信号为‘1’时,开端核算并生成输出操控信号。其间a_cntrl部分用于操控矩阵A数据加载模块,首要包括地址信号readaa和锁存信号latchaa,来一个锁存高电平则存储A矩阵数据readaa;b_cntrl部分则对应于矩阵B的操控,输入B矩阵数据readbb;cache部分用于操控数据缓存部分串行输入并行输出,包括着相应的读地址信号cacherdadd、写地址信号cachewradd、cache挑选信号cachemesel,三者同步操控并行输出;outcntrl部分是整个体系的输出操控部分,在预备信号ready之后,呈现outvalid高电平,表明输出数据有用,一起完结信号done为低电平。为使矩阵A、B数据能一起加载到浮点乘加模块上,需求使一个readaa值对应于readbb的columnsbb个数据。在本规划中运用的是A9×16数据与B16×8数据进行核算,生成的outvalid有9个脉冲,每个脉冲包括8个矩阵输出数据。

关于A、B矩阵的数据加载,选用的是串行输入并行输出的操控器,由移位存放器组成,当计数器计数到端口输出值时(如端口并行输出8个数则计数到8),并行输出数据。

浮点乘加模块选用并行相乘、并行相加的方法。由于考虑到精度问题,选用浮点位数转化,将32 bit的输入数据进行浮点扩展为42 bit,再进行乘加运算,最终再将42 bit数据转化为32 bit数据。选用三级流水线的方法,进行并行乘加运算,进步规划体系功能。

在双口RAM组的完结上,是将一组simple dualport ram[3]并列成一个RAM组。输入由矩阵A、B的数据信号和ROM输出的地址信号组成;输出便是一路矩阵A数据和一路矩阵B数据,数据深度与vectorsize同等。其间每一个RAM的深度为rowsaa×columnsbb/vectorsize,确保数据的可重用性,一起相对应的ROM中存储的地址信号分别为:

A:1 2 1 2 3 3 1 2 3 4 4 4 1 2 3 4 5 5 5 5 1 2 3 4 5 6 6 6 6 6 ……

B:1 1 2 2 1 2 3 3 3 1 2 3 4 4 4 4 1 2 3 4 5 5 5 5 5 1 2 3 4 5 ……

以此类推即可得到相应的地址信号查找表。

在数据缓存模块的规划上也选用串行输入并行输出的方法。运用移位存放器的方法完结,在并行浮点相加部分类似于上述的并行乘加[4]核算,选用多级流水线并行相加的方法完结。

3.2 核算成果仿真

对改善的规划进行仿真,选用A9×16数据与B16×8数据相乘,取得核算成果仿真如图4所示。

根据Altera浮点IP核完结浮点矩阵相乘运算的改善规划

从图4可见,loadaa、loadbb、calcimatrix三者的时序满意浮点矩阵运算的时序要求,在前两者数据加载后,加载calcimatrix上升沿,进行矩阵相乘。在outvalid为高电平时输出数据,一起完结信号done输出低电平。在输出成果上,共分为9个大组,各大组有8个数据,共组成72个数据成果,其间显现了榜首部分输出成果,取得与Matlab仿真附近的核算成果,在精度上相差不到万分之一。

从表1中能够看出,改善后的IP核在处理时刻上缩短了807个周期,一起在最高运转时钟上提高了15%,体系全体的继续功能添加了7.2 Gflops。

根据改善前后的IP核,运用Quartus9.1软件进行归纳布局布线,映射到Stratix Ⅲ EP3SE110F780C2器材中,可取得相应的资源比照图如图5所示。由于选用的都是并行浮点乘加运算,所以在乘法器资源的耗费上不变;一起由于只是在存储器的存储方法上作出改变,所以二者的存储资源持平。然后只需求对图中显现的矩阵阶数、vectorsize巨细进行比较即可,而浮点核算功能与最高时钟频率改变方向相同,所以只对ALM数量及最高时钟频率进行比照。

从图5中资源耗费比照可见,当设定vectorsize为固定值8(图5左半部)时,跟着矩阵阶数的添加,改善后的IP核在ALM资源耗费上较改善前数量上有必定的削减,在最高时钟频率上都有小起伏提高,这是由于矩阵输入时耗费时刻过长;当设定矩阵阶数为192×192(图5右半部)时,跟着vectorsize值的添加,改善后IP核在ALM数量上有所减小,在最高时钟频率上则有小起伏提高,且动摇起伏在3.4%左右。可见,改善后IP核比原Altera的IP核归纳功能有所提高。

声明:本文内容来自网络转载或用户投稿,文章版权归原作者和原出处所有。文中观点,不代表本站立场。若有侵权请联系本站删除(kf@86ic.com)https://www.86ic.net/yingyong/5g/287276.html

为您推荐

联系我们

联系我们

在线咨询: QQ交谈

邮箱: kf@86ic.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

返回顶部