机器学习学习笔记（十六）—— 图像识别中的应用

分类: 文章 • 2025-02-16 11:11:16

一个OCR识别程序通常包括四个步骤：图像检测、图像分割、文字识别、错误纠正。

第一步，图像检测(滑动窗分类器/sliding windows)：

比如检测图片中的行人，我们定义一个比例一定的方块，然后每次截取一块图片进行输入，并且每次以一定的步长(step size/stride parameter)来截取图片。然后调整滑动窗的大小，再次扫描图片。。。

第二步，图像分割：

训练一个分类器，看是否文字之间有空隙.