期刊文章详细信息
文献类型:期刊文章
机构地区:[1]浙江大学计算机科学与技术学院,浙江杭州310027 [2]中国残疾人联合会信息中心,北京100034 [3]浙江科技学院信息中心,浙江杭州310023
基 金:国家科技支撑计划资助项目(2008BAH26B00)
年 份:2011
卷 号:45
期 号:6
起止页码:1006-1012
语 种:中文
收录情况:AJ、BDHX、BDHX2008、CAS、CSA、CSA-PROQEUST、CSCD、CSCD2011_2012、EI(收录号:20112914165179)、IC、INSPEC、JST、SCOPUS、ZGKJHX、ZMATH、核心刊
摘 要:针对新闻数据流事件检测算法在实时性、准确率等方面存在的问题,提出一种面向新闻数据流的在线事件检测方法.事件的发生往往伴随着构成该事件的特征(即关键词)在相应时间段内出现的频率明显上升,将这些特征称为突发特征.运用分布拟合检验检测构成新闻数据流的特征在某一时间段内新闻报道中出现频率的分布是否发生明显变化,并进一步利用左边检验确认该时间段内的所有突发特征.分析突发特征的相关性,采用进化谱聚类算法将相关性较高的突发特征聚类在一起构成事件.在路透社新闻数据集第一卷上应用了本算法,验证了该方法能够有效地发现突发特征,并实时地检测出发生的事件,检测出的事件同实际事件有很高的符合度.
关 键 词:在线事件检测 进化谱聚类 假设检验 新闻数据流
分 类 号:TP391]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...