版本：Next

文本识别

功能介绍

模块位置：检测-文本识别

传统 OCR 通常面向扫描件、文档类平面文本识别，而本文本识别模块支持平面文档类 + 工业立体类文本的智能识别与数据提取，既可识别车票、单据等纸张文本，也能精准识别工业零件表面压铸、刻印的型号、编码等信息。

原图	识别

使用场景

复杂背景：设别表面存在油污、划痕或反光的文本。
多角度拍摄需求:大型设备难以近距离正面拍摄，识别倾斜角度下采集的图像。
多语言混合识别:识别中英文混合的文本。
下游任务输入：提取的文本数据可作为后续模块的输入。

输入

输入	说明
图像源	输入方式是选择输出图像的模块。
区域方法	选择输入区域的方式。绘制：在本模块中绘制一个区域；继承：选择流程中的区域。
区域类型	全区域或使用旋转矩形区域框选区域。

参数说明

检测参数-二值化阈值

范围 [0,1]，对深度学习模型输出的文本概率图进行二值化处理。概率值高于该阈值的像素判定为文本区域，低于该阈值的判定为背景，从而生成二值图用于后续文本轮廓提取。

阈值越低：保留更多候选文本像素，检出率高但可能引入噪点。
阈值越高：仅保留高置信度像素，干净但可能遗漏文本。

检测参数-检测框阈值

范围 [0,1]，用于过滤低质量检测框的数量。计算每个检测框内的平均文本置信度，过滤低于该阈值的检测框。

数值越高：只识别更确定的文本区域，误检少但可能漏检少。数值越低：会框选更多疑似区域，但容易把噪点、纹理误判为文本。

检测参数-Unclip（外扩）比例

范围 [0,5]，用于控制文本检测框的外扩程度。由于检测模型在训练时会将文本标签收缩，因此需要通过 Unclip 操作将文本区域适当外扩，以还原完整的文本边界。

数值越大：检测框外扩越多，框住的范围更大，会将临近的多条文本框成一条。
数值越小：外扩越，检测框更贴近文字边缘。

分类参数-开启方向分类

开启后，会自动判断文本是否为 180° 倒置，并在识别前自动校正文本方向，以提高倒置文本的识别准确率。

分类参数-方向分类阈值

范围 [0.5,1]，判断文本是否需要旋转 180° 的置信度门槛。

当模型判定文本倒置方向且置信度高于此阈值时，执行 180° 翻转校正。

置信度阈值

范围 [0,1]，用于过滤低置信度的候选框。文本识别完成后，置信度低于阈值的检测框将被丢弃。

数值越高：结果越严格，仅保留更确定的文本。数值越低：结果越宽松，可能保留不准确的文本。

输出

输出	类型	默认启用	额外启用条件	说明
区域列表	区域集	否	在输出设置中勾选	/
区域中心列表	2D点集	否	在输出设置中勾选	/
识别数量	整数	是	/	识别出的文本条数
识别结果	字符串列表	是	/	文本的内容
检测对象	目标检测集	是	/	置信度、边界框中心点、边界框宽高、文本序号、文本内容
识别区域	区域集	是	/	将每个边界框转换成区域（用于下游模块）

文本识别

功能介绍​

使用场景​

输入​

参数说明​

检测参数-二值化阈值​

检测参数-检测框阈值​

检测参数-Unclip（外扩）比例​

分类参数-开启方向分类​

分类参数-方向分类阈值​

置信度阈值​

输出​