通过轮廓分析做表格拆分

先上一张图:

通过轮廓分析做表格拆分

像上面这张图是拍照图片,由于拍照图片不像扫描图片那样线条是直的,用线条来切割应该是行不通的。

分析表格特征:是由多个矩形框组成的,每个矩形框都是一个单独的轮廓 。

下面尝试用轮廓分析来拆分这张表格,上代码:

Mat src = imread("F:/TestImg/table1.jpg",0);	
	if (src.empty()) 
	{ 
		cout << "Load image error!!!" << endl;		
		return -1;
	}
	Mat imgBin, imgTemp;
	adaptiveThreshold(src, imgBin, 255, 0, 0, 25, 15);  //二值化
	imgBin.copyTo(imgTemp);
	bitwise_not(imgTemp, imgTemp);  //反色

	//查找轮廓
	vector<vector<Point>> contours;
	vector<Vec4i> hierarchy;
	findContours(imgTemp, contours, hierarchy, 1, 1); //注意最后2个参数
	size_t cSize = contours.size();
	int nCount = 0;
	cvtColor(imgBin,imgBin,COLOR_GRAY2BGR);
	vector<vector<Point> > contours2;
	for (size_t i = 0; i < cSize; i++)
	{
		Rect r = boundingRect(contours[i]);
		int w = r.width, h = r.height;
		//轮廓高宽删选,高或宽要比文字高度大2倍以上
		if (w > 100 && h > 40)  
			contours2.push_back(contours[i]);  //可能是表格的矩形	
	}
	cSize = contours2.size(); 

	//排除表格外部矩形框(表格是大矩形包小矩形,只要内部小矩形)
	vector<bool> vecOK(cSize,true);  //记录矩形是否包含小矩形(重复包含)
	for (size_t i = 0; i < cSize; i++)
	{
		Rect r1 = boundingRect(contours2[i]); //和其它矩形相比较
		for (size_t j = 0; j < cSize; j++)
		{
			if (j == i)
				continue;
			Rect r2= boundingRect(contours2[j]);
			if (r1 == (r2 & r1))  //是否r1在r2内部
				vecOK[j] = false;  //r2是外围大轮廓,排除
			if (r2 == (r2 & r1))
				vecOK[i] = false;  //r1是外围大轮廓,排除
		}
	}
	Scalar sca[3];
	sca[0] = Scalar(255,0,0);
	sca[1] = Scalar(0,255,0);
	sca[2] = Scalar(0,0,255);
	for (size_t i = 0; i < cSize; i++)
	{
		if (vecOK[i])  //是表格内部小矩形时
		{
			drawContours(imgBin, contours2, i, sca[i % 3], 5, 8);
			nCount++;
		}		
	}
	cout << "contours size:" << nCount << endl;

过程中(二值化后反色):

通过轮廓分析做表格拆分

结果(定位出每个框):

通过轮廓分析做表格拆分到此,13个轮廓框全部正确定位。

这其中轮廓删选的条件 (w>100 && h>40) ,本示例中由于篇幅所限,在观察图片时选的值。

实际上应该先旋转矫正后,再根据联通域来计算图片中字符的平均高度nCharH(目前我自己的算法只能做到准确率在98%左右,所以不好意思放上来)。

然后每个矩形框的高h>nCharH*1.5 并且宽 w>nCharH*3   或者   高h>nCharH*3 并且宽 w>nCharH*1.5

           (横形框中最少有2个字+左中右空白,宽 w>nCharH*3; 竖形框同理)

 

以上为个人浅见,欢迎大家交流指正