Python提取docx文档中所有嵌入式图片和浮动图片
封面图片:《Python可以这样学》,ISBN:9787302456469,董付国,清华大学出版社
图书详情(京东):
用书老师可以联系董老师获取配套PPT、源码。
===================
近期会议、培训通知:
==============
术语:
浮动图片,是指在Word文档中位置可以自由移动、可以环绕文字或放置于文字上方、下方的图片,不占文档流的位置,可以和文字或嵌入式图片重叠。
嵌入式图片或行内图片,和文档中的文字一样占文档流的位置,不能自由移动位置,也不能环绕文字,不能放置于文字的上方或下方。直接插入Word文档的图片默认为嵌入式图片,如果改为浮动图片,需要单独设置。
==============
首先,我们准备一个文件“包含图片的文档.docx”,里面放几个图片,设置其中几个图片浮动,分别位于文字下方和文字上方,再写几个字,如图:
然后使用扩展库python-docx提取其中的图片,目前这个库似乎只支持嵌入式图片的提取,不支持浮动图片,有知道的朋友请留言告知,测试成功后可以获赠董老师任意图书一本。
提取结果:
改用扩展库docx2python,官方对这个扩展库的简单描述如下:
首先使用pip命令安装这个扩展库,如图:
参考代码:
提取结果:
除了提取图片之外,obj还具有下面的属性可以提取docx文档中不同部分,请自行查阅资料了解其用法。
温馨提示
关注本公众号“Python小屋”,通过菜单“最新资源”==>“历史文章”可以快速查看分专题的900篇技术文章列表(可根据关键字在页面上搜索感兴趣的文章),通过“最新资源”==>“微课专区”可以免费观看400节Python微课,通过“最新资源”==>“培训动态”可以查看近期Python培训安排,通过“最新资源”==>“教学资源”可以查看Python教学资源。
---董付国老师Python系列图书---
友情提示:不建议购买太多,最好先通过京东、当当、天猫查阅图书了解目录和侧重点,然后再选择购买适合自己的书。
(1)《Python程序设计(第2版)》(ISBN:978-7-302-43651-5),清华大学出版社,2016年8月
(2)《Python可以这样学》(ISBN:978-7-302-45646-9),清华大学出版社,2017年2月
(3)《Python程序设计基础(第2版)》(ISBN:978-7-302-49056-2)清华大学出版社,2018年1月
(5)《Python程序设计开发宝典》(ISBN:978-7-302-47210-0)清华大学出版社,2018年10月
(6)《玩转Python轻松过二级》(ISBN:978-7-302-49916-9)清华大学出版社,2018年5月
(7)《Python程序设计基础与应用》(ISBN:978-7-111-60617-8),机械工业出版社,2018年9月
(8)《Python程序设计实验指导书》(ISBN:9787302525790),清华大学出版社,2019年4月
(9)《Python编程基础与案例集锦(中学版)》(ISBN:978-7-121-35539-4),电子工业出版社,2019年4月
(10)《大数据的Python基础》(ISBN:978-7-111-62455-4),机械工业出版社,预计2019年5月出版
(11)译作《Python程序设计》,机械工业出版社(华章),2018年11月出版
(12)繁体版《Python也可以这样学》,台湾博硕文化股份有限公司,2017年10月出版,本书为《Python可以这样学》在台湾发行的繁体版,两本书内容一样,不建议重复购买。
(13)《Python程序设计实例教程》(ISBN:978-7-111-63198-9),机械工业出版社
(14)《Python数据分析、挖掘与可视化》(ISBN:978-7-115-52361-7),人民邮电出版社,2019年12月
课后习题答案
实验指导书
教学大纲
课件
报告PPT
直播、回放