OCR (Optical Character Recognition,光学字符识别) 是指提取图像中的文字信息。
传统 OCR 方法一般包含预处理、版面处理、字符切分、字符识别、后处理等五个步骤:
传统 ORC 方法的缺点有:
总体来讲,受传统算法的局限性,传统 OCR 仅在比较规整的印刷文档上表现比较好,但在复杂场景(图像模糊、低分辨率、干扰信息)中,文字检测和识别性能都不够理想。
深度学习时代的 OCR 算法更为简洁,主要可以分为两种思路:
二阶段 OCR 是目前主流的,也是效果较好的方法,一般包括文字检测和文字识别两部分:
这篇博客主要研究 two-stage 方法。
近几年也有统一了文字检测检测和识别的端到端的 OCR 方法,如 STN-COR,FOTS 和 ABCNet。
STN-COR 由定位网络和识别网络两部分组成。定位网络的输入是场景文本图片,输出是N个变换矩阵,每个矩阵经网格后形成一个采样网格,每个采样网格代表一个文本区域。识别网络是单字符识别网络的改进,可以识别多个字符。
但端到端的模型仍有几个问题等待解决:
文字检测和识别需要的特征的粒度不同,文本检测只需要区分出当前区域是否包含文本即可,使用粗粒度的特征即可满足要求。但识别需要区分不同文字的差别,需要细粒度的特征。检测和识别分支的特征如何有效共享是个仍待解决的问题。
识别分支的收敛速度远慢于检测分支,需要的数据量远大于检测分支。因此端到端训练时数据量和收敛速度问题如何平衡仍需关注。
本节参考硕士论文:苗文强. 基于深度学习的文本识别算法研究与实现[D].北京邮电大学,2022.DOI:10.26969/d.cnki.gbydu.2022.002445.
文本检测算法可以分为两大类:基于回归和基于分割
文本识别算法可分为两类:基于分割的单字符识别方法,基于序列标注的文本行识别方法。
其中基于序列标注的文本行识别方法是目前的主流方法。
基于分割的单字符识别方法通常包含字符分割和字符识别两个步骤。该方法尝试从输入文本实例图像中定位每个字符的位置,该过程通常使用分割网络如 FCN 实现,然后将分割后的字符输入字符分类器进行分类,最后再组合字符得到字符串作为最终识别结果。
因为这种方法已经取得了重大进展,但仍然存在一些明显的缺陷:
基于序列标注的文本行识别方法通过 Encoder-Decoder 框架将整个文本行图片直接映射为目标字符串序列,从而避免了字符分割带来的误差。这种方法包括四个流程:预处理、视觉特征提取、序列建模、解码预测。
上一篇:时序数据库