截断某个字符 python 之前和之后的文本



我正在用python阅读大文本,

文本的格式为:

blablabla
***** END HEADER ******
valid content

***** start footer *****
blablalba

我需要通过删除所有字符串来删除所有文本中的页眉和页脚,直到 ***** 结束页眉 ***** 以及 ***** 开始页脚 ***** 之后的所有内容

任何帮助将不胜感激

到目前为止,我尝试过:

import re
chop = re.compile('(/.+)*** END HEADER *****', re.DOTALL)
data_chopped = chop.sub('', text_file)

但是我不断收到错误:

sre_constants.error: multiple repeat at position

可能还有其他有效的方法,一种方法可能是尝试使用多个拆分:

txt = """blablabla
***** END HEADER ******
valid content

***** start footer *****
blablalba
"""
# split the header and take the second section of split
tmp = ''.join(txt.split('***** END HEADER ******')[1])
# split by footer and take the first section of split
tmp2 = ''.join(tmp.split('***** start footer *****')[0])
result = tmp2.strip()
print(result)

结果:

'valid content'

相关内容

  • 没有找到相关文章

最新更新