使用python-docx识别word文档.docx文件中的封面



我很想知道是否可以在.docx文件的xml中识别任何元素,这些元素可以用来区分word文档的封面。

到目前为止,我发现的唯一可识别的表示封面的元素是分页符。

<w:br type="page"> 

然而,这与整个文档中的分页符相同。

这个问题的目的是,若word文件中有封面,我希望从第二页开始对word文档的页数进行编号,否则从第1页开始。

  • 也许有一种段落样式只出现在封面上(也许是"标题"(
  • 也许封面是它自己的部分,有一个与众不同的页眉或页脚
  • 也许有一个独特的页眉或页脚显示为";仅第一页";(三种页眉/页脚类型之一(
  • 也许文本中有一个常见的字符串或字符串模式

这些是一些想法,但简而言之,你需要根据内容来检测这样的事情。不存在";封面";与其他页面不同的Word。

最新更新