博奥智能通过领先的深度学习技术,对各种表格,图片,文档、证件、面单等多种通用场景、多种语言的文字进行快速、精准的检测和识别,适用于印刷体、手写体、倾斜、折叠、旋转等场景的通用文本识别 、通用文字识别,提供定制开发服务。
OCR全称是Optical Character Recognition,意思是“光学字符识别技术”,是最为常见的、也是目前最高效的文字扫描技术,它可以从图片或者PDF中识别和提取其中的文字内容,输出文本文档,方便验证用户信息,或者直接进行内容编辑。
典型的OCR技术路线分为5个大的步骤,分别是输入、图像与处理、文字检测、文本识别,及输出。每个过程都需要算法的深度配合,因此从技术底层来讲,从图片到文字输出,要经历以下的过程:
1. 图像输入:读取不同图像格式文件;
2. 图像预处理:主要包括图像二值化,噪声去除,倾斜校正等;
3. 版面分析:将文档图片分段落,分行;
4. 字符切割:处理因字符粘连、断笔造成字符难以简单切割的问题;
5. 字符特征提取:对字符图像提取多维特征;
6. 字符识别:将当前字符提取的特征向量与特征模板库进行模板粗分类和模板细匹配,识别出字符;
7. 版面恢复:识别原文档的排版,按原排版格式将识别结果输出到文本文档;
后处理校正: 根据特定的语言上下文的关系,对识别结果进行校正