期刊文章详细信息
文献类型:期刊文章
机构地区:[1]太原理工大学计算机与软件学院,太原030024 [2]山西省网络管理中心系统部,太原030001
基 金:山西省自然科学基金( the Natural Science Foundation of Shanxi Province of China under Grant No.2006011030, No.2007011050)
年 份:2008
卷 号:44
期 号:8
起止页码:179-182
语 种:中文
收录情况:AJ、BDHX、BDHX2004、CSA、CSA-PROQEUST、CSCD、CSCD2011_2012、IC、INSPEC、JST、RCCSE、ZGKJHX、核心刊
摘 要:会话识别是Web日志挖掘中的重要步骤。针对目前的各种会话识别方法,提出了一种改进的基于页面内容、下载时间等多个参数综合得到的针对每个用户的个性化识别方法。该方法通过使用访问时间间隔,判断是否在极大、极小两个阈值范围内来识别会话。根据页面内容、站点结构确定页面重要程度,通过页面的信息容量确定用户正常的阅读时间,通过Web日志中页面下载时间来确定起始阅读时间,对以上因素进行综合后对该阈值进行调整。实验结果表明,相对于目前的对所有用户页面使用单一先验阈值进行会话识别的方法及使用针对用户页面的阈值动态调整方法,提出的方法能更准确地个性化确定出页面访问时间阈值,更为合理有效。
关 键 词:WEB挖掘 会话识别 预处理 阈值
分 类 号:TP393]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...