登录    注册    忘记密码

期刊文章详细信息

TDC转置卷积硬件加速器的设计与优化    

Design and optimization of the TDC transposed convolution hardware accelerator

  

文献类型:期刊文章

作  者:王国庆[1] 严利民[1]

WANG Guoqing;YAN Limin(Microelectronics Research&Development Center,School of Mechatronic Engineering and Automation,Shanghai University,Shanghai 200444,China)

机构地区:[1]上海大学机电工程与自动化学院微电子研究与开发中心,上海200444

出  处:《西安电子科技大学学报》

基  金:国家自然科学基金(52107112)。

年  份:2025

卷  号:52

期  号:2

起止页码:156-166

语  种:中文

收录情况:BDHX、BDHX2023、核心刊

摘  要:转置卷积在深度学习(Deep Learning, DL)任务中应用广泛,但是在小型快速超分辨率卷积神经网络(Fast Super-Resolution Convolutional Neural Network-small, FSRCNN-s)中已经成为推理阶段的主要性能瓶颈,因此设计高效的转置卷积硬件加速器至关重要。基于转换转置卷积为卷积(Transforming Deconvolution to Convolution, TDC)算法,将步长为2的转置卷积软件推理流程转换为4路并行的直接卷积硬件实现,验证了不完美映射情况下算法和硬件加速器的正确性。完成转置卷积加速器设计后,选择FSRCNN-s×2网络进行端到端部署,采用软硬件协同设计和8位整数(Integer 8-bit, INT8)量化调度策略平衡转置卷积推理精度和速度之间的矛盾。实验结果表明,设计的转置卷积硬件加速器精度损失在0.5dB以内,相比CPU基线推理速度缩短到17ms。对比其他转置卷积加速器,设计的整数推理加速器显著降低了数字信号处理器(Digital Signal Processor, DSP)资源占用,将DSP效率提高为0.200每秒十亿次运算(Giga Operations Per Second, GOPS)/DSP,为低位宽整数推理转置卷积加速器设计提供参考。

关 键 词:卷积神经网络 转置卷积  转换转置卷积为卷积算法  INT8量化  硬件加速器

分 类 号:TP18]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心