小贝子编程

如何将巨大的HTML分为小文件

本文关键字：小文文件 HTML 巨大 python regex string python-2.7
更新时间 : 2023-09-09
英文 : how to split huge html to little files

我正在尝试获取一个大量的HTML文件并将其分为部分。该文件是由Jenkins生成的，看起来像这样：

[XXX] text1
[XXX] text2
[YYY] text4
[XXX] text3
[YYY] text5
[ZZZ] text6
...

我试图做以下操作：

my_dict = {}
text, header = re.split('n[[A-Za-z]+]'), re.match('n[[A-Za-z]+]')
for idx, (header, text) in enumerate(zip(header, text)):
    try:
        my_dict[header] += text
    except KeyError:
        my_dict[header] = text
    print idx

但这需要太长（IDX约为200k）。我可以以某种方式更快吗？

好吧，解决了...我将环将循环划分为10k步骤，这只是使其在Comperaion中快速运行。猜猜我只是拿起太多的ram

相关内容

最新更新