登录    注册    忘记密码

期刊文章详细信息

一种基于FPGA的通用卷积神经网络加速器的设计与实现    

Design and Implementation of an FPGA-Based General Accelerator for Convolutional Neural Networks

  

文献类型:期刊文章

作  者:李沙沙[1] 李夏禹[1] 刘珊珊[1] 赵晓冬[1] 俞军[1]

LI Shasha;LI Xiayu;LIU Shanshan;ZHAO Xiaodong;YU Jun(Shanghai Fudan Microelectronics Group Co., Ltd., Shanghai 200082, China)

机构地区:[1]上海复旦微电子集团股份有限公司,上海200082

出  处:《复旦学报(自然科学版)》

年  份:2022

卷  号:61

期  号:1

起止页码:69-76

语  种:中文

收录情况:BDHX、BDHX2020、CAS、CSCD、CSCD_E2021_2022、JST、RCCSE、ZGKJHX、ZMATH、核心刊

摘  要:针对卷积神经网络中算子众多、网络结构变化迅速的特点,本文提出一种基于现场可编程门阵列(FPGA)的较为通用的卷积神经网络(CNN)加速器,可适应多种应用需求、达到较好的加速效果。该加速器采用专用的CNN指令集,可通过软件编译网络来生成指令,控制硬件灵活地实现多种网络的推理工作。在设计上,该加速器有如下几个特点:第一,采用状态握手的控制方式,让各个模块能够并行执行;第二,对FPGA的DSP进行拆分,成倍的提高计算资源;第三,通过片上RAM乒乓的方式,进一步减少MAC等待的时间,提高利用率;第四,采用类脉动阵列的形式,让工程的时序更加收敛,主频进一步提高。另外,本文还对第1层卷积以及平均池化等特殊算子,进行特殊支持来进一步提升运行性能。本文在Xilinx Kintex-7 XC7K325T FPGA上进行了实验,核心加速引擎可工作在200 MHz,卷积MAC阵列峰值算力为0.8TOPS,能效比达到63.00 GOP/(s·W)。对于YOLO V2网络,它的平均MAC利用率为91.9%;对于VGG16网络,它的平均MAC利用率为73.5%。

关 键 词:现场可编程门阵列 卷积神经网络 硬件加速 脉动阵列

分 类 号:TN403]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心