期刊文章详细信息
自然语言处理中对抗攻防的可解释性综述
A review of the interpretability of the confrontation and defenses in natural language processing
文献类型:期刊文章
HU Ruibin;SU Shishuai;WANG Zhe(Department of Science and Technology,Zhejiang Normal University,Jinhua 321004,China;School of Computer Science and Technology,Zhejiang Normal University,Jinhua 321004,China)
机构地区:[1]浙江师范大学科技处,浙江金华321004 [2]浙江师范大学计算机科学与技术学院,浙江金华321004
基 金:浙江省教育厅一般科研项目(Y202457289);浙江省教育厅理工类一般科研项目(Y202456821)。
年 份:2025
卷 号:48
期 号:2
起止页码:142-153
语 种:中文
收录情况:普通刊
摘 要:针对深度学习模型安全性面临的巨大挑战,特别是易受对抗样本攻击的问题,整理近年来对抗样本与模型可解释性方面的研究进展.通过系统梳理对抗攻击和防御相关的可解释性研究,分析对抗样本的生成方法及其对模型决策过程的影响,并讨论防御对抗攻击时采用的可解释性技术和提升模型鲁棒性的方法.重点阐述了近年来对抗样本对模型分类结果的影响,可解释性技术在揭示模型决策过程脆弱性方面的有效性,以及结合可解释性的防御方法在提升模型鲁棒性方面的进展.为可解释性研究提供有价值的参考,推动深度神经网络模型在自然语言处理等领域的安全性研究.
关 键 词:深度神经网络 自然语言处理 可解释性 对抗攻击
分 类 号:TP301.6]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...

