专利详细信息
文献类型:专利
专利类型:发明专利
是否失效:否
是否授权:否
申 请 号:CN201510910407.2
申 请 日:20151210
申 请 人:天津海量信息技术有限公司
申请人地址:300020 天津市和平区南马路11号麦购国际大厦23层
公 开 日:20160511
公 开 号:CN105574085A
代 理 人:王山
代理机构:天津市尚仪知识产权代理事务所(普通合伙)
语 种:中文
摘 要:一种基于图数据结构的检索词优化方法,从图形的规则中抽取多个词集以及这些词集间的关系;整理词集和关系,为每个词集命名,将词集和关系简化成多行与或表达式;分析每行表达式,给每个词数集赋上一个权值;通过分词和倒文档率识别词性,从而准确的分析出词集与主题的关联度,从而能够从成千上万条规则中快速提取出最小且需求关联度最高的检索词集,其中在标引流程中获得较高的召回率,覆盖逻辑表达式最全且最小词数集的优化方法,使得最终产生的采集任务量减少,从而提高企业的生产效率。
主 权 项:1.一种基于图数据结构的检索词优化方法,包括以下步骤: A、从图形的规则中抽取多个词集以及这些词集间的关系,这些原始检索词被抽象为N行与或表达式; B、整理词集和词集间关系:为每个词集按行号及在行中所处位置命名,对于含有相同词的集合进行合并; C、分析每行表达式,统计同名词集出现的次数,以及每个词数集的词数,寻找词数少且覆盖表达式行数多的词数集计算该词的行数覆盖率,以词数的倒数加权到覆盖率上,获取中间权值; D、对词集进行滤噪处理,使用分词功能判断词的词性,去掉副词,感叹词,连词等无实际含义的词语;同时从近一个月词集样本中获取每个词的倒文档率,即该词的常见度,通过词性和倒文档率获取词与主题特征的相关度,从而为每个词设置一个权重; E、综合词数集的中间权值和词数集下每个词的权重,计算出每个词数集的最终权值,选取最终权值最高且覆盖所有逻辑条件的词数集作为本次的检索词;最终权值=中间权值+词集中词的平均权重的开方值。
关 键 词:词集 表达式 优化方法 关联度 检索词 词数 最小 逻辑表达式 图数据结构 引流 采集任务 快速提取 生产效率 召回率 词性 多行 分词 权值 文档 一种 抽取 分析 简化 识别 命名 整理 覆盖 准确 减少 产生
IPC专利分类号:G06F17/30(20060101)
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...