期刊文章详细信息
文献类型:期刊文章
Geng Xinqing;Wang Zhengou(College of Mathematics and Information Science,Anshan Normal University,Anshan 114007,China;Institute of System Engineering,Tianjin University,Tianjin 300072,China)
机构地区:[1]鞍山师范学院数学与信息科学学院,辽宁鞍山114007 [2]天津大学系统工程研究所,天津300072
基 金:国家自然科学基金(60275020)。
年 份:2022
卷 号:46
期 号:5
起止页码:579-585
语 种:中文
收录情况:AJ、BDHX、BDHX2020、CAS、CSCD、CSCD_E2021_2022、IC、JST、RCCSE、SCOPUS、UPD、ZGKJHX、核心刊
摘 要:针对传统模糊聚类算法需要预先确定初始隶属度矩阵的问题,该文提出了基于增量式模糊聚类算法(Incremental fuzzy clustering algorithm,FCLDA)的文本挖掘方法。首先根据文本集中关键词出现次数进行排序,优先选择出现次数多的关键词作为文本集的主题,然后利用隐含狄利克雷分布(Latent Dirichlet allocation,LDA)主题模型构建文档-主题概率分布组成矩阵,将该矩阵作模糊C均值聚类(FCM)算法的隶属度矩阵,并对隶属度矩阵的隶属度值增加一个权值,在FCLDA算法迭代过程中,采用模糊信息熵作为聚类数确定的标准,增加主题词,当模糊信息熵达到最小值时,聚类数确定下来,最后将FCLDA算法应用到网页的文本挖掘中,结果试验表明,相对于FCM算法和K最近邻(K-nearest neighbor)算法,FCLDA算法的运行聚类结果准确率更高,运行速度加快,更适合处理具有模糊性的文本。
关 键 词:狄利克雷分布主题模型 模糊聚类 聚类数 模糊信息熵 文本聚类
分 类 号:TP391]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...