一种高度并行的卷积神经网络加速器设计方法

哈尔滨工业大学学报

ISSN：0367-6234

2020年第52卷第4期

关注

徐欣¹,刘强¹,王少军²

(1.天津市成像与感知微电子技术重点实验室(天津大学),天津 300072; 2.哈尔滨工业大学电子与信息工程学院,哈尔滨 150001)

English

为实现卷积神经网络数据的高度并行传输与计算,生成高效的硬件加速器设计方案,提出了一种基于数据对齐并行处理、多卷积核并行计算的硬件架构设计和探索方法.该方法首先根据输入图像尺寸对数据进行对齐预处理,实现数据层面的高度并行传输与计算,以提高加速器的数据传输和计算速度,并适应多种尺寸的输入图像;采用多卷积核并行计算方法,使不同的卷积核可同时对输入图片进行卷积,以实现卷积核层面的并行计算;基于该方法建立硬件资源与性能的数学模型,通过数值求解,获得性能与资源协同优化的高效卷积神经网络硬件架构方案.实验结果表明:所提出的方法,在Xilinx Zynq XC7Z045上实现的基于16位定点数的SSD网络(single shot multibox detector network)模型在175 MHz的时钟频率下,吞吐量可以达到44.59帧/s,整板功耗为9.72 W,能效为31.54 GOP/(s·W);与实现同一网络的中央处理器(CPU)和图形处理器(GPU)相比,功耗分别降低85.1%与93.9%;与现有的其他卷积神经网络硬件加速器设计相比,能效提升20%～60%,更适用于低功耗嵌入式应用场合.

关键词: 现场可编程门阵列；卷积神经网络；并行处理；硬件结构优化； SSD网络

下载

HTML

认领

认领进度

0 %

一种高度并行的卷积神经网络加速器设计方法

一种高度并行的卷积神经网络加速器设计方法

发表评论

用户信息设置