专利详细信息
文献类型:专利
专利类型:发明专利
是否失效:否
是否授权:否
申 请 号:CN201610053497.2
申 请 日:20160127
申 请 人:南开大学 天津神州浩天科技有限公司
申请人地址:300071 天津市南开区卫津路94号
公 开 日:20190104
公 开 号:CN105760901B
代 理 人:王利文
代理机构:12209 天津盛理知识产权代理有限公司
语 种:中文
摘 要:本发明涉及一种多语种倾斜文档图像的自动语言判别方法,其技术特点是包括以下步骤:对于采集的文档图像,利用Gabor滤波方法进行文档图像语种的自动判别,将文档图像分为亚洲语种文档图像和拉丁语种文档图像;针对不同语种的文档图像使用相应的倾斜校正算法,得到校正后的文档图像,然后在校正后的文档图像上应用关键词匹配方法进行文档图像语言的自动判别,从而实现文档图像的语言自动判别功能。本发明设计合理,其采用Gabor滤波和关键词匹配相结合的方法实现了文档图像的自动语言判别功能,并且通过分块投票方式保证了方法的鲁棒性,提高了识别的准确率,准确率满足了实际应用的需求。
主 权 项:1.一种多语种倾斜文档图像的自动语言判别方法,其特征在于包括以下步骤:步骤1、对于采集的文档图像,利用Gabor滤波方法进行文档图像语种的自动判别,将文档图像分为亚洲语种文档图像和拉丁语种文档图像;步骤2、针对不同语种的文档图像使用相应的倾斜校正算法,得到校正后的文档图像,然后在校正后的文档图像上应用关键词匹配方法进行文档图像语言的自动判别,从而实现文档图像的语言自动判别功能;所述步骤1的具体实现方法包括以下步骤:(1)对采集的文档图像使用数学形态学的方法进行滤噪处理;(2)对于存在倾斜的文档图像,从中选取适合于做自动语言判别的一定数量的文字区域;(3)对选出的每个文字区域分别做Gabor滤波,并根据提取到的Gabor特征、应用分类器对每个文字区域的语种进行自动判别;(4)对每个文字区域的自动语种判别结果进行投票,取投票数最多的语种作为整个文档图像的语种判别结果,从而将输入的文档图像分为亚洲语种文档图像和拉丁语种文档图像两大类。
关 键 词:文档图像 自动判别 语种 关键词匹配 自动语言 准确率 技术特点 倾斜校正 投票方式 多语种 鲁棒性 分块 算法 校正 应用 语言 采集 保证
IPC专利分类号:G06K9/68(20060101); G06K9/32(20060101)
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...