登录    注册    忘记密码

期刊文章详细信息

基于不同分词模式的文本分类研究    

Text Classification Based on Different Word Segmentation

  

文献类型:期刊文章

作  者:孔希希[1] 廖述魁[1] 程兵[1]

机构地区:[1]中国科学院大学数学与系统科学研究院

出  处:《数学的实践与认识》

基  金:中国科学院随机复杂结构与数据科学重点实验室开放基金资助;国家自然科学基金重大研究计划培育项目“管理决策大数据分析方法与关键技术”(91546102)

年  份:2018

卷  号:48

期  号:1

起止页码:116-123

语  种:中文

收录情况:BDHX、BDHX2017、MR、RCCSE、ZGKJHX、ZMATH、核心刊

摘  要:主要研究不同的分词模式对文本分类结果的影响,采用两种传统的文本表示方法:LDA和LSA,采用两种分类方法:支持向量机和逻辑回归,一共四组不同的实验来比较分析.实验结果表明相对于传统的分词方法来说,第二种搜索引擎式的分词方法通过拆分、添加组合词对分类结果更有效.具体来说,对两种分词采用LDA得到文本表示后,模式二的分类准确率最高95.38%,模式一为93.7%.在对两种分词采用LSA得到文本表示后,模式二的分类准确率最高为96.44%,模式一最高为95.2%.

关 键 词:文本分类 LDA LSA 支持向量机 逻辑回归

分 类 号:TP391.1]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心