专利详细信息
文献类型:专利
专利类型:发明专利
是否失效:否
是否授权:否
申 请 号:CN201010212267.9
申 请 日:20100629
申 请 人:天津海量信息技术有限公司
申请人地址:300384 天津市华苑产业区榕苑路1号B北322-323室
公 开 日:20111005
公 开 号:CN102207947A
代 理 人:陈曦
代理机构:北京汲智翼成知识产权代理事务所(普通合伙)
语 种:中文
摘 要:本发明公开了一种直接引语素材库的生成方法,包括如下的步骤:(1)对于一篇文章,首先抽取引号内的直接引语内容;(2)以直接引语内容所在位置为中心,考察前一句和后一句的内容,通过词性标注识别出前一句和后一句中的人名和/或机构名;(3)对于识别出来的存在于前一句或者后一句内容中的所有人名和/或机构名,作为直接引语陈述者的候选集合,从该候选集合中挑选出真正的直接引语陈述者;(4)将挑选出来的直接引语陈述者和直接引语内容添加到直接引语素材库中。利用本方法生成的直接引语素材库,可以在互联网中提供更新、搜索、查询等服务,也可以在媒体资讯领域为写作、编辑、专题制作等提供技术支持。
主 权 项:1.一种直接引语素材库的生成方法,其特征在于包括如下的步骤:(1)对于一篇文章,首先从左至右扫描,当扫描到的字符为左引号时,从下一个字符开始记录,一直记录到当前字符为右引号为止,在这个过程中记录的内容为直接引语内容;(2)以直接引语内容所在位置为中心,考察前一句和后一句的内容,通过词性标注识别出前一句和后一句中的人名和/或机构名;(3)对于识别出来的存在于前一句或者后一句内容中的所有人名和/或机构名,作为直接引语陈述者的候选集合,从该候选集合中挑选出真正的直接引语陈述者;(4)将挑选出来的直接引语陈述者和直接引语内容添加到直接引语素材库中。
关 键 词:引语 素材库 人名 引号 词性标注 技术支持 挑选 抽取 互联网
IPC专利分类号:G06F17/30(20060101);G06F17/27(20060101)
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...