期刊文章详细信息
密度峰值优化的球簇划分欠采样不平衡数据分类算法
Imbalanced data classification algorithm based on ball cluster partitioning and undersampling with density peak optimization
文献类型:期刊文章
LIU Xuewen;WANG Jikui;YANG Zhengguo;LI Qiang;YI Jihai;LI Bing;NIE Feiping(School of Information Engineering,Lanzhou University of Finance and Economics,Lanzhou Gansu 730020,China;Key Laboratory of E‑Business Technology and Application of Gansu Province(Lanzhou University of Finance and Economics),Lanzhou Gansu 730020,China;Center for OPTical IMagery Analysis and Learning(OPTIMAL),Northwestern Polytechnical University,Xi’an Shaanxi 710072,China)
机构地区:[1]兰州财经大学信息工程学院,兰州730020 [2]甘肃省电子商务技术与应用重点实验室(兰州财经大学),兰州730020 [3]西北工业大学光学影像分析与学习中心,西安710072
基 金:国家自然科学基金资助项目(61772427);甘肃省高等学校创新能力提升资助项目(2021B-145,2021B-147);甘肃省自然科学基金资助项目(17JR5RA177);甘肃省重点研发计划项目(21YF5FA087)。
年 份:2022
卷 号:42
期 号:5
起止页码:1455-1463
语 种:中文
收录情况:AJ、BDHX、BDHX2020、CSCD、CSCD_E2021_2022、IC、JST、RCCSE、ZGKJHX、ZMATH、核心刊
摘 要:在集成算法中嵌入代价敏感和重采样方法是一种有效的不平衡数据分类混合策略。针对现有混合方法中误分代价计算和欠采样过程较少考虑样本的类内与类间分布的问题,提出了一种密度峰值优化的球簇划分欠采样不平衡数据分类算法DPBCPUSBoost。首先,利用密度峰值信息定义多数类样本的抽样权重,将存在“近邻簇”的多数类球簇划分为“易误分区域”和“难误分区域”,并提高“易误分区域”内样本的抽样权重;其次,在初次迭代过程中按照抽样权重对多数类样本进行欠采样,之后每轮迭代中按样本分布权重对多数类样本进行欠采样,并把欠采样后的多数类样本与少数类样本组成临时训练集并训练弱分类器;最后,结合样本的密度峰值信息与类别分布为所有样本定义不同的误分代价,并通过代价调整函数增加高误分代价样本的权重。在10个KEEL数据集上的实验结果表明,与现有自适应增强(AdaBoost)、代价敏感自适应增强(AdaCost)、随机欠采样增强(RUSBoost)和代价敏感欠采样自适应增强(USCBoost)等不平衡数据分类算法相比,DPBCPUSBoost在准确率(Accuracy)、F1分数(F1-Score)、几何均值(G-mean)和受试者工作特征(ROC)曲线下的面积(AUC)指标上获得最高性能的数据集数量均多于对比算法。实验结果验证了DPBCPUSBoost中样本误分代价和抽样权重定义的有效性。
关 键 词:不平衡数据分类 密度峰值 球聚类 代价敏感 欠采样
分 类 号:TP181]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...