ocr识别技术哪家好;什么是 OCR 技 术,有哪些好用的 OCR 软 件推荐?


ocr识别技术哪家好;什么是 OCR 技 术,有哪些好用的 OCR 软 件推荐?

文章插图
本篇文章给大家谈谈ocr识别技术,以及ocr识别技术哪家好对应的知识点,希望对各位有所帮助,不要忘了收藏本站!
内容导航:
  • OCR 技术浅析
  • OCR技术是什么?
  • OCR是什么?如果应用?
  • 什么是 OCR 技 术,有哪些好用的 OCR 软 件推荐?
  • OCR技术浅析
  • 什么是OCR技术?
Q1:OCR 技术浅析 随着人工智能的热度上升,图像识别这一分领域也渐渐被人们所关注 。图像识别中最贴近我们生活的可能就是 OCR 技术了 。可能很多同学还不知道什么是 OCR 。我们先来看下 OCR 的定义:
今天就来简单分析下 OCR 技术的原理,不会涉及具体的算法讲解和推导,毕竟每一个算法都能占很长的篇幅,每一个算法都能重新开一篇来写 。
从整体上来说,OCR一般分为两个大步骤:图像处理以及文字识别 。
识别文字前,我们要对原始图片进行预处理,以便后续的特征提取和学习 。这个过程通常包含:灰度化、二值化、降噪、倾斜矫正、文字切分等子步骤 。每一个步骤都涉及了不同的算法 。我们以下面这张原始图片为例,进行每个步骤的讲解 。
【ocr识别技术哪家好;什么是 OCR 技 术,有哪些好用的 OCR 软 件推荐?】 灰度化(gray processing),在RGB模型中,如果R=G=B时,则彩色表示一种灰度颜色,其中R=G=B的值叫灰度值,因此,灰度图像每个像素只需一个字节存放灰度值(又称强度值、亮度值),灰度范围为0-255 。说通俗一点,就是将一张彩色图片变为黑白图片 。
灰度化一般有分量法、最大值法、平均值法、加权平均法四种方法对彩色图像进行灰度化 。
一幅图像包括目标物体、背景还有噪声,要想从多值的数字图像中直接提取出目标物体,最常用的方法就是设定一个阈值T,用T将图像的数据分成两部分:大于T的像素群和小于T的像素群 。这是研究灰度变换的最特殊的方法,称为图像的二值化(binaryzation) 。
二值化的黑白图片不包含灰色,只有纯白和纯黑两种颜色 。
二值化里最重要的就是阈值的选取,一般分为固定阈值和自适应阈值 。比较常用的二值化方法则有:双峰法、P参数法、迭代法和OTSU法等 。
现实中的数字图像在数字化和传输过程中常受到成像设备与外部环境噪声干扰等影响,称为含噪图像或噪声图像 。减少数字图像中噪声的过程称为图像降噪(Image Denoising) 。
图像中噪声的来源有许多种,这些噪声来源于图像采集、传输、压缩等各个方面 。噪声的种类也各不相同,比如椒盐噪声,高斯噪声等,针对不同的噪声有不同的处理算法 。
在上一步得到的图像中可以看到很多零星的小黑点,这就是图像中的噪声,会极大干扰到我们程序对于图片的切割和识别,因此我们需要降噪处理 。降噪在这个阶段非常重要,降噪算法的好坏对特征提取的影响很大 。
图像降噪的方法一般有均值滤波器、自适应维纳滤波器、中值滤波器、形态学噪声滤除器、小波去噪等 。
对于用户而言,拍照的时候不可能绝对的水平,所以,我们需要通过程序将图像做旋转处理,来找一个认为最可能水平的位置,这样切出来的图,才有可能是最好的一个效果 。
倾斜矫正最常用的方法是霍夫变换,其原理是将图片进行膨胀处理,将断续的文字连成一条直线,便于直线检测 。计算出直线的角度后就可以利用旋转算法,将倾斜图片矫正到水平位置 。
对于一段多行文本来讲,文字切分包含了行切分与字符切分两个步骤, 倾斜矫正 是文字切分的前提 。我们将 倾斜矫正 后的文字投影到 Y轴,并将所有值累加,这样就能得到一个在y轴上的直方图 。
直方图的谷底就是背景,峰值则是前景(文字)所在的区域 。于是我们就将每行文字的位置给识别出来了 。
字符切分和行切分类似,只是这次我们要将每行文字投影到 X轴 。
但要注意的是,同一行的两个字符往往挨的比较紧,有些时候会出现垂直方向上的重叠,投影的时候将他们认为是一个字符,从而造成切割的时候出错(多出现在英文字符);也有些时候同一个字符的左右结构在X轴的投影存在一个小间隙,切割的时候误把一个字符切分为两个字符(多出现在中文字符) 。所以相较于行切分,字符切分更难 。
对于这种情况,我们可以预先设定一个字符宽度的期望值,切出的字符如果投影超出期望值太大,则认为是两个字符;如果远远小于这个期望值,则忽略这个间隙,把间隙左右的“字符”合成一个字符来识别 。


推荐阅读