使用python-docx来识别页面断裂
需要识别页面何时在Word文档中结束,并用其他文本标记pageend_<>。
我能够使用以下代码在段落上迭代段落:
from docx.api import Document
from docx.enum.text import WD_BREAK
inputfile = 'test.docx'
document = Document(inputfile)
for paragraph in document.paragraphs:
# Write paragraph text into new document
# Write additional text as PARAEND_<<ParaNumber>>
我如何为每个页面做同样的事情?
简短的答案是,在python-docx
中不可能可靠地做到这一点,因为确定页面边界是(运行时(页面渲染引擎的函数,并且在.docx文件本身中未表示。
这个问题的答案中还有更多细节:
页码Python-docx
和这个:
如何使用docx