您的位置: 首页 > 文章 > 如何保留PDF里的表格、跨页拼接？

如何保留PDF里的表格、跨页拼接？

分类: 文章 • 2024-09-24 16:00:04

最近有没有好用的解析pdf的开源项目？能够解析保留pdf里表格，并且能够跨页拼接。或者强力的ocr项目，能够识别表格？

当然！图灵君为大家收集了以下三种方法：

1、用于从结构化PDF文档中抽取信息的PDF解析包(Python)

《Py PDF Parser - a tool to help extracting information from structured PDFs'》by Jake Stockwin

GitHub：

https://github.com/jstockwin/py-pdf-parser

2、用unet实现对文档表格的自动检测，表格重建

GitHub：

https://github.com/chineseocr/table-ocr

如何保留PDF里的表格、跨页拼接？

如何保留PDF里的表格、跨页拼接？

如何保留PDF里的表格、跨页拼接？

3、从包含表格的扫描图片中识别表格和文字

《OCR Table - Recognize tables and text from scanned images that contain tables》by bitdata

GitHub：

https://github.com/bitdata/ocrtable

如何保留PDF里的表格、跨页拼接？

如何保留PDF里的表格、跨页拼接？

如何保留PDF里的表格、跨页拼接？