跳到主要内容
版本:Next

文本识别

功能介绍

模块位置:检测-文本识别

传统 OCR 通常面向扫描件、文档类平面文本识别,而本文本识别模块支持平面文档类 + 工业立体类文本的智能识别与数据提取,既可识别车票、单据等纸张文本,也能精准识别工业零件表面压铸、刻印的型号、编码等信息。

原图识别
文本工业
文本工业

使用场景

  • 复杂背景:设别表面存在油污、划痕或反光的文本。
  • 多角度拍摄需求:大型设备难以近距离正面拍摄,识别倾斜角度下采集的图像。
  • 多语言混合识别:识别中英文混合的文本。
  • 下游任务输入:提取的文本数据可作为后续模块的输入。

输入

输入说明
图像源输入方式是选择输出图像的模块。
区域方法选择输入区域的方式。绘制:在本模块中绘制一个区域;继承:选择流程中的区域。
区域类型全区域或使用旋转矩形区域框选区域。

参数说明

检测参数-二值化阈值

范围 [0,1],对深度学习模型输出的文本概率图进行二值化处理。概率值高于该阈值的像素判定为文本区域,低于该阈值的判定为背景,从而生成二值图用于后续文本轮廓提取。

阈值越低:保留更多候选文本像素,检出率高但可能引入噪点。
阈值越高:仅保留高置信度像素,干净但可能遗漏文本。

检测参数-检测框阈值

范围 [0,1],用于过滤低质量检测框的数量。计算每个检测框内的平均文本置信度,过滤低于该阈值的检测框。

数值越高:只识别更确定的文本区域,误检少但可能漏检少。 数值越低:会框选更多疑似区域,但容易把噪点、纹理误判为文本。

检测参数-Unclip(外扩)比例

范围 [0,5],用于控制文本检测框的外扩程度。由于检测模型在训练时会将文本标签收缩,因此需要通过 Unclip 操作将文本区域适当外扩,以还原完整的文本边界。

数值越大:检测框外扩越多,框住的范围更大,会将临近的多条文本框成一条。
数值越小:外扩越,检测框更贴近文字边缘。

分类参数-开启方向分类

开启后,会自动判断文本是否为 180° 倒置,并在识别前自动校正文本方向,以提高倒置文本的识别准确率。

分类参数-方向分类阈值

范围 [0.5,1],判断文本是否需要旋转 180° 的置信度门槛。

当模型判定文本倒置方向且置信度高于此阈值时,执行 180° 翻转校正。

置信度阈值

范围 [0,1],用于过滤低置信度的候选框。文本识别完成后,置信度低于阈值的检测框将被丢弃。

数值越高:结果越严格,仅保留更确定的文本。 数值越低:结果越宽松,可能保留不准确的文本。

输出

输出类型默认启用额外启用条件说明
区域列表区域集在输出设置中勾选/
区域中心列表2D点集在输出设置中勾选/
识别数量整数/识别出的文本条数
识别结果字符串列表/文本的内容
检测对象目标检测集/置信度、边界框中心点、边界框宽高、文本序号、文本内容
识别区域区域集/将每个边界框转换成区域(用于下游模块)