期刊文章详细信息
文献类型:期刊文章
WANG Guoqing;YAN Limin(Microelectronics Research&Development Center,School of Mechatronic Engineering and Automation,Shanghai University,Shanghai 200444,China)
机构地区:[1]上海大学机电工程与自动化学院微电子研究与开发中心,上海200444
基 金:国家自然科学基金(52107112)。
年 份:2025
卷 号:52
期 号:2
起止页码:156-166
语 种:中文
收录情况:BDHX、BDHX2023、核心刊
摘 要:转置卷积在深度学习(Deep Learning, DL)任务中应用广泛,但是在小型快速超分辨率卷积神经网络(Fast Super-Resolution Convolutional Neural Network-small, FSRCNN-s)中已经成为推理阶段的主要性能瓶颈,因此设计高效的转置卷积硬件加速器至关重要。基于转换转置卷积为卷积(Transforming Deconvolution to Convolution, TDC)算法,将步长为2的转置卷积软件推理流程转换为4路并行的直接卷积硬件实现,验证了不完美映射情况下算法和硬件加速器的正确性。完成转置卷积加速器设计后,选择FSRCNN-s×2网络进行端到端部署,采用软硬件协同设计和8位整数(Integer 8-bit, INT8)量化调度策略平衡转置卷积推理精度和速度之间的矛盾。实验结果表明,设计的转置卷积硬件加速器精度损失在0.5dB以内,相比CPU基线推理速度缩短到17ms。对比其他转置卷积加速器,设计的整数推理加速器显著降低了数字信号处理器(Digital Signal Processor, DSP)资源占用,将DSP效率提高为0.200每秒十亿次运算(Giga Operations Per Second, GOPS)/DSP,为低位宽整数推理转置卷积加速器设计提供参考。
关 键 词:卷积神经网络 转置卷积 转换转置卷积为卷积算法 INT8量化 硬件加速器
分 类 号:TP18]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...

