期刊文章详细信息
文献类型:期刊文章
YANG Hao;ZHANG Chijun;ZHANG Xinwei(School of Computer Science and Technology,Changchun University of Science and Technology,Changchun 130022,China;International Business School,Guangdong University of Finance&Economics,Guangzhou 510320,China;Student Affairs Office,Changchun University,Changchun 130022,China)
机构地区:[1]长春理工大学计算机科学技术学院,长春130022 [2]广东财经大学国际商学院,广州510320 [3]长春大学学生工作部,长春130022
基 金:国家自然科学基金青年基金(批准号:82304204)。
年 份:2025
卷 号:63
期 号:4
起止页码:1105-1116
语 种:中文
收录情况:BDHX、BDHX2023、核心刊
摘 要:针对自然灾害应急物资分配的问题,提出一种基于动态Boltzmann Softmax(DBS)和动态探索率(DER)的Q-learning算法(dynamic Boltzmann Softmax and dynamic exploration rate based-Q-learning,DBSDER-QL).首先,采用动态Boltzmann Softmax策略,通过动态调整动作价值的权重,促进算法的稳定收敛,解决了最大运算符的过度贪婪问题.其次,采用动态探索率策略提高算法的收敛性和稳定性,解决了固定探索率Q-learning算法在训练后期无法完全收敛到最优策略的问题.最后,通过消融实验验证了DBS和DER策略的有效性.与动态规划算法、贪心算法及传统Q-learning算法进行对比的实验结果表明,DBSDER-QL算法在总成本和计算效率方面均明显优于传统方法,展现了更高的适用性和有效性.
关 键 词:物资分配 强化学习 Q-learning算法 动态探索率 动态Boltzmann Softmax
分 类 号:TP391]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...

