登录    注册    忘记密码

期刊文章详细信息

基于增量式模糊聚类算法的文本挖掘    

Text mining based on incremental fuzzy clustering algorithm

  

文献类型:期刊文章

作  者:耿新青[1] 王正欧[2]

Geng Xinqing;Wang Zhengou(College of Mathematics and Information Science,Anshan Normal University,Anshan 114007,China;Institute of System Engineering,Tianjin University,Tianjin 300072,China)

机构地区:[1]鞍山师范学院数学与信息科学学院,辽宁鞍山114007 [2]天津大学系统工程研究所,天津300072

出  处:《南京理工大学学报》

基  金:国家自然科学基金(60275020)。

年  份:2022

卷  号:46

期  号:5

起止页码:579-585

语  种:中文

收录情况:AJ、BDHX、BDHX2020、CAS、CSCD、CSCD_E2021_2022、IC、JST、RCCSE、SCOPUS、UPD、ZGKJHX、核心刊

摘  要:针对传统模糊聚类算法需要预先确定初始隶属度矩阵的问题,该文提出了基于增量式模糊聚类算法(Incremental fuzzy clustering algorithm,FCLDA)的文本挖掘方法。首先根据文本集中关键词出现次数进行排序,优先选择出现次数多的关键词作为文本集的主题,然后利用隐含狄利克雷分布(Latent Dirichlet allocation,LDA)主题模型构建文档-主题概率分布组成矩阵,将该矩阵作模糊C均值聚类(FCM)算法的隶属度矩阵,并对隶属度矩阵的隶属度值增加一个权值,在FCLDA算法迭代过程中,采用模糊信息熵作为聚类数确定的标准,增加主题词,当模糊信息熵达到最小值时,聚类数确定下来,最后将FCLDA算法应用到网页的文本挖掘中,结果试验表明,相对于FCM算法和K最近邻(K-nearest neighbor)算法,FCLDA算法的运行聚类结果准确率更高,运行速度加快,更适合处理具有模糊性的文本。

关 键 词:狄利克雷分布主题模型  模糊聚类 聚类数 模糊信息熵  文本聚类

分 类 号:TP391]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心