Python,文本挖掘,docx到表(CSV)
问题描述:
所以我很新的python,可能会问一个简单的问题。我正在寻找一种方法,可以从docx文件中提取章节名称,节名称和文本,并将其传输到表中,其中第一行包含章节名称,第二行包含节名称,第三行包含文本从这一章开始。我想在某些时候添加的另一件事对文本的每个新段落都有一个新的界限。我想到下面的步骤,但我真诚地怀疑是否是正确的方式去:Python,文本挖掘,docx到表(CSV)
-
打开的Word文档
表1.A读字文件
1.b.定义标题,副标题,脚注&头
-
创建新的文件
2.A.与9行
名称每一行
-
请填写预定义的文本标题创建表:法律文件
“部分标题章第分段文章编号文章文本 文章标题参考”
-
定义类别的排名
5.a.给排名表中,第1行中包含文件名
5.B:第2行中包含章节名称,列3节的名称等
- 从开始
读取word文档的第一定义的排序
6.a .:复制定义好的排名的文字
6.b.追加到复制文本文件到正确的行
我已经看着docx和xlml,但我想知道它是否会给我我要找的结果。
答
您需要docx和CSV或openpyxl模块。你也需要努力。找出一种方法来区分你想要存储在CSV中的东西,然后把这个检测和存储放到一个循环中,当没有其他事情可做时,它会感应并停止。这是你通过这类问题得到的最多建议。
最有用的建议是你“开始”/“尝试”的东西。然后一旦你陷入某个特定的地方,你就会回来。见[问]。 –