通过轮廓分析做表格拆分
先上一张图:
像上面这张图是拍照图片,由于拍照图片不像扫描图片那样线条是直的,用线条来切割应该是行不通的。
分析表格特征:是由多个矩形框组成的,每个矩形框都是一个单独的轮廓 。
下面尝试用轮廓分析来拆分这张表格,上代码:
Mat src = imread("F:/TestImg/table1.jpg",0);
if (src.empty())
{
cout << "Load image error!!!" << endl;
return -1;
}
Mat imgBin, imgTemp;
adaptiveThreshold(src, imgBin, 255, 0, 0, 25, 15); //二值化
imgBin.copyTo(imgTemp);
bitwise_not(imgTemp, imgTemp); //反色
//查找轮廓
vector<vector<Point>> contours;
vector<Vec4i> hierarchy;
findContours(imgTemp, contours, hierarchy, 1, 1); //注意最后2个参数
size_t cSize = contours.size();
int nCount = 0;
cvtColor(imgBin,imgBin,COLOR_GRAY2BGR);
vector<vector<Point> > contours2;
for (size_t i = 0; i < cSize; i++)
{
Rect r = boundingRect(contours[i]);
int w = r.width, h = r.height;
//轮廓高宽删选,高或宽要比文字高度大2倍以上
if (w > 100 && h > 40)
contours2.push_back(contours[i]); //可能是表格的矩形
}
cSize = contours2.size();
//排除表格外部矩形框(表格是大矩形包小矩形,只要内部小矩形)
vector<bool> vecOK(cSize,true); //记录矩形是否包含小矩形(重复包含)
for (size_t i = 0; i < cSize; i++)
{
Rect r1 = boundingRect(contours2[i]); //和其它矩形相比较
for (size_t j = 0; j < cSize; j++)
{
if (j == i)
continue;
Rect r2= boundingRect(contours2[j]);
if (r1 == (r2 & r1)) //是否r1在r2内部
vecOK[j] = false; //r2是外围大轮廓,排除
if (r2 == (r2 & r1))
vecOK[i] = false; //r1是外围大轮廓,排除
}
}
Scalar sca[3];
sca[0] = Scalar(255,0,0);
sca[1] = Scalar(0,255,0);
sca[2] = Scalar(0,0,255);
for (size_t i = 0; i < cSize; i++)
{
if (vecOK[i]) //是表格内部小矩形时
{
drawContours(imgBin, contours2, i, sca[i % 3], 5, 8);
nCount++;
}
}
cout << "contours size:" << nCount << endl;
过程中(二值化后反色):
结果(定位出每个框):
到此,13个轮廓框全部正确定位。
这其中轮廓删选的条件 (w>100 && h>40) ,本示例中由于篇幅所限,在观察图片时选的值。
实际上应该先旋转矫正后,再根据联通域来计算图片中字符的平均高度nCharH(目前我自己的算法只能做到准确率在98%左右,所以不好意思放上来)。
然后每个矩形框的高h>nCharH*1.5 并且宽 w>nCharH*3 或者 高h>nCharH*3 并且宽 w>nCharH*1.5
(横形框中最少有2个字+左中右空白,宽 w>nCharH*3; 竖形框同理)
以上为个人浅见,欢迎大家交流指正