基于动态量化的神经网络加速器软硬件协同设计方案

	基于动态量化的神经网络加速器软硬件协同设计方案
	徐兆辉
	2025-03
报告类型	工程报告
摘要	随着人工智能技术的快速发展，深度神经网络（DNN）在各类任务中展现了显著优势。然而，随着应用从云端向端侧设备迁移，如何在资源受限的端侧设备上高效部署大规模深度学习模型成为关键挑战。量化作为一种有效的模型压缩技术，通过降低模型精度减少计算和存储开销，但传统的静态混合精度量化方法由于无法适应数据的动态变化，常导致精度损失。为此，动态精度量化方法应运而生，能够根据激活值的动态变化调整量化位宽，从而优化计算资源利用并保持模型精度。然而，现有的动态量化算法主要针对图像处理任务，难以直接迁移至语言模型，且静态量化加速器无法支持动态精度的模型。本方案提出了一种基于动态量化的神经网络加速器软硬件协同设计方案，旨在解决低精度动态量化在语言模型中的应用问题。该方案支持多种语言模型，能够在保证精度的同时，优化计算资源利用，实现高效部署于端侧设备。
语种	中文
文献类型	科技报告
条目标识符	https://kms.shanghaitech.edu.cn/handle/2MSLDSTB/493981
专题	信息科学与技术学院_硕士生
作者单位	上海科技大学
第一作者单位	上海科技大学
推荐引用方式 GB/T 7714	徐兆辉. 基于动态量化的神经网络加速器软硬件协同设计方案,2025.