如何将巨大的HTML分为小文件



我正在尝试获取一个大量的HTML文件并将其分为部分。该文件是由Jenkins生成的,看起来像这样:

[XXX] text1
[XXX] text2
[YYY] text4
[XXX] text3
[YYY] text5
[ZZZ] text6
...

我试图做以下操作:

my_dict = {}
text, header = re.split('n[[A-Za-z]+]'), re.match('n[[A-Za-z]+]')
for idx, (header, text) in enumerate(zip(header, text)):
    try:
        my_dict[header] += text
    except KeyError:
        my_dict[header] = text
    print idx

但这需要太长(IDX约为200k)。我可以以某种方式更快吗?

好吧,解决了...我将环将循环划分为10k步骤,这只是使其在Comperaion中快速运行。猜猜我只是拿起太多的ram

最新更新