光学特征识别中的表示



我正在学习OCR并阅读本书https://www.amazon.com/character-recognition-different-languages-computing/dp/3319502514

作者定义了8个进程以实现一个遵循一个ost的OCR(2之后2之后,3之后2之后等(:

  1. 光学扫描
  2. 位置分割
  3. 预处理
  4. 分割
  5. 表示
  6. 特征提取
  7. 识别
  8. 后处理

这是他们写的关于表示(#5(

的文章

第五个OCR组件是表示。图像表示 扮演任何识别系统中最重要的角色之一。在 最简单的情况,灰度或二进制图像被馈送到 识别器。但是,在大多数识别系统中 避免额外的复杂性并提高算法的准确性, 需要更紧凑和更特征的表示。为了这 目的,为每个班级提取一组功能,以帮助 将其与其他班级区分开来,同时保持不变 班级内的特征差异。字符形象 表示方法通常分为三个主要 组:(a(全球转换和系列扩展(b(统计 代表和(c(几何和拓扑表示。

这是他们写的关于特征提取的内容(#6(

第六个OCR组件是特征提取。目的 特征提取是捕获符号的基本特征。 特征提取被认为是最困难的问题之一 模式识别。描述最直接的方式 字符是按实际的栅格图像。另一种方法是提取 某些特征符号但留下不重要的特征 属性。提取此类特征的技术被划分 分为三个小组。(a(点分布(b(转换 和系列扩展和(c(结构分析。

我完全困惑。我不明白什么是代表。据我了解,在细分后我们必须从图像中获取某些功能,例如拓扑结构,例如弗里曼链代码,并且必须与学习阶段模型中保存的一些功能相匹配,即进行识别。换句话说 - 分割 - 特征提取 - 识别。我不明白在表示阶段必须做什么。请解释。

表示组件将分割产生的栅格图像采用,并将其转换为更简单的格式(a"表示"(,该格式保留了类的特征性属性。这是为了降低以后识别过程的复杂性。您提到的Freeman链代码就是这样的代表。

一些(大多数?(作者将表示形式和特征提取分为一个步骤,但是您书中的作者选择了分别对待它们。改变表示并不是强制性的,但是这样做会降低复杂性,从而提高培训和认可步骤的准确性。

从更简单的表示中,在特征提取步骤中提取特征。提取哪些功能取决于所选的表示。本文 - 特征提取方法用于角色识别 - 调查 - 描述了11种不同的特征提取方法,可以应用于4个不同的表示。

提取的功能是传递给培训师或识别器的功能。

最新更新