专利详细信息
文献类型:专利
专利类型:发明专利
是否失效:否
是否授权:否
申 请 号:CN201810970921.9
申 请 日:20180824
申 请 人:安徽讯飞智能科技有限公司
申请人地址:241000 安徽省芜湖市鸠江区皖江财富广场A1座9楼
公 开 日:20211026
公 开 号:CN109165273B
代 理 人:项磊
代理机构:34138 芜湖思诚知识产权代理有限公司
语 种:中文
摘 要:本发明公开了一种面向大数据环境的通用中文地址匹配方法,包括S1、数据预处理;S2、中文地址要素解析,将中文、字母和数字信息分解提炼出相应的要素信息;S3、定义多种距离计算公式,实现基于key‑value计算各地址信息之间匹配关系的多种距离;S4、基于对要素信息完成原始地址字符串的key‑value形式转换,建立基于key‑value的多种距离匹配模型并由此计算综合匹配度,据此对目标地址进行排序;S5、综合匹配度最大值是否大于给定阈值参数,并由此给出匹配结果。本发明将单条地址的匹配效率从1min左右降低到约2.2s;匹配结果在匹配度与精确度指标上更均衡,对推动智慧城市的构建具有较高的应用价值。
主 权 项:1.一种面向大数据环境的通用中文地址匹配方法,其特征在于:包括如下步骤:S1、数据预处理;S2、中文地址要素解析,将中文、字母和数字信息分解提炼出相应的要素信息;S3、定义多种距离计算公式,实现基于key-value计算各地址信息之间匹配关系的多种距离;S4、基于对要素信息完成原始地址字符串的key-value形式转换,建立基于key-value的多种距离匹配模型,基于key值进行过滤搜索,然后循环计算待匹配地址与目标地址之间的多种距离,并由此计算综合匹配度,依据综合匹配度对目标地址进行排序;S5、获取综合匹配排序度最高的目标地址判断其综合匹配度是否大于给定阈值参数,并由此给出匹配结果;所述步骤S4中,对原始地址字符串中分类出的字母和数字信息按照倒序组合,构成具有标识特性的key,同时将解析后的中文地址要素信息组合形成value值,完成原始地址字符串的key-value形式转换。
关 键 词:匹配度 匹配结果 要素信息 距离计算公式 数据预处理 地址匹配 地址要素 目标地址 匹配关系 匹配模型 匹配效率 数字信息 通用中文 形式转换 原始地址 智慧城市 阈值参数 大数据 字符串 中文 单条 构建 解析 排序 提炼 均衡 分解 应用
IPC专利分类号:G06F16/31(20190101);G06F16/335(20190101)
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...