期刊文章详细信息
文献类型:期刊文章
机构地区:[1]中国科学院大学数学与系统科学研究院
基 金:中国科学院随机复杂结构与数据科学重点实验室开放基金资助;国家自然科学基金重大研究计划培育项目“管理决策大数据分析方法与关键技术”(91546102)
年 份:2018
卷 号:48
期 号:1
起止页码:116-123
语 种:中文
收录情况:BDHX、BDHX2017、MR、RCCSE、ZGKJHX、ZMATH、核心刊
摘 要:主要研究不同的分词模式对文本分类结果的影响,采用两种传统的文本表示方法:LDA和LSA,采用两种分类方法:支持向量机和逻辑回归,一共四组不同的实验来比较分析.实验结果表明相对于传统的分词方法来说,第二种搜索引擎式的分词方法通过拆分、添加组合词对分类结果更有效.具体来说,对两种分词采用LDA得到文本表示后,模式二的分类准确率最高95.38%,模式一为93.7%.在对两种分词采用LSA得到文本表示后,模式二的分类准确率最高为96.44%,模式一最高为95.2%.
关 键 词:文本分类 LDA LSA 支持向量机 逻辑回归
分 类 号:TP391.1]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...