登录    注册    忘记密码

期刊文章详细信息

语义分析与词频统计相结合的中文文本相似度量方法研究    

Chinese text similarity method research by combining semantic analysis with statistics

  

文献类型:期刊文章

作  者:华秀丽[1,2] 朱巧明[2] 李培峰[2]

机构地区:[1]苏州大学计算机科学与技术学院,江苏苏州215006 [2]江苏省计算机信息处理技术重点实验室,江苏苏州215006

出  处:《计算机应用研究》

基  金:国家自然科学基金资助项目(60970056;61070123;61003155);模式识别国家重点实验室开发课题基金资助项目;江苏省自然科学基金资助项目(BK2008160);高等学校博士学科点专项科研基金资助项目(20093201110006)

年  份:2012

卷  号:29

期  号:3

起止页码:833-836

语  种:中文

收录情况:AJ、BDHX、BDHX2011、CSA-PROQEUST、CSCD、CSCD2011_2012、IC、INSPEC、JST、RCCSE、UPD、ZGKJHX、ZMATH、核心刊

摘  要:基于统计的文本相似度量方法大多先采用TF-IDF方法将文本表示为词频向量,然后利用余弦计算文本之间的相似度。此类方法由于忽略文本中词项的语义信息,不能很好地反映文本之间的相似度。基于语义的方法虽然能够较好地弥补这一缺陷,但需要知识库来构建词语之间的语义关系。研究了以上两类文本相似度计算方法的优缺点,提出了一种新颖的文本相似度量方法,该方法首先对文本进行预处理,然后挑选TF-IDF值较高的词项作为特征项,再借助HowNet语义词典和TF-IDF方法对特征项进行语义分析和词频统计相结合的文本相似度计算,最后利用文本相似度在基准文本数据集合上进行聚类实验。实验结果表明,采用提出的方法得到的F-度量值明显优于只采用TF-IDF方法或词语语义的方法,从而证明了提出的文本相似度计算方法的有效性。

关 键 词:向量空间模型 语义分析 词频 概率分布  文本相似度

分 类 号:TP391]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心