期刊文章详细信息
文献类型:期刊文章
机构地区:[1]江西师范大学计算机信息工程学院,南昌330022 [2]江西财经大学网络信息管理中心,南昌330013 [3]江西师范大学初等教育学院,南昌330027
基 金:国家自然科学基金资助项目(61272212)
年 份:2014
卷 号:40
期 号:6
起止页码:195-200
语 种:中文
收录情况:AJ、CAS、CSA、CSA-PROQEUST、CSCD、CSCD2013_2014、IC、INSPEC、JST、RCCSE、SCOPUS、UPD、ZGKJHX、普通刊
摘 要:传统文本聚类方法只适合处理静态样本,且时间复杂度较高。针对该问题,提出一种基于簇相合性的文本增量聚类算法。采用基于词项语义相似度的文本表示模型,利用词项之间的语义信息,通过计算新增文本与已有簇之间的相合性实现对文本的增量聚类。增量处理完部分文本后,对其中错分可能性较大的文本重新指派类别,以进一步提高聚类性能。该算法可在对象数据不断增长或更新的情况下,避免大量重复计算,提高聚类性能。在20 Newsgroups数据集上进行实验,结果表明,与k-means算法和SHC算法相比,该算法可减少聚类时间,提高聚类性能。
关 键 词:文本聚类 增量聚类 语义相似度 簇相合性 文本再分配
分 类 号:TP18]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...