基于pyqt5实现PDF文档解析工具
为了更深入的学习和了解PDF文档,计划利用pyqt5实现一个PDF文档解析工具,具体的功能如下:
(a)PDF转图片(已实现)
(b)图片转PDF(已实现)
(b)PDF文本提取(已实现)
(d)图片文本提取(已实现)
(e)PDF表格抽取及结构化解析(计划中)
主要实现技术:pymupdf + ocr
一、UI界面如下
图(1)
1.1 PDF转图片
图(2)
图(3)
步骤4,选择保存路径,即可将PDF转换为图片。
1.2 图片转PDF
图(4)
将所选目录中的图片转换成一个PDF文件。
1.3 文本提取
工具支持选择一个区域,提取区域内的所有文本,支持的文件格式为pdf和图片,具体如下:
(1)导入文件
如图(1)所示,可以导入pdf或者图片,后续开发考虑支持更多文件格式
(2)选择区域
图(5)
(3)文本解析
通过图(5)步骤4,得到解析结果为:
想体验软件功能或想获取源码,请点击下面的链接关注:
https://pan.baidu.com/s/1jhtIwPQA0hjtSoKj87dsUg
后续文章,将更新软件代码思路和实现。