我正在尝试获取一个大量的HTML文件并将其分为部分。该文件是由Jenkins生成的,看起来像这样:
[XXX] text1
[XXX] text2
[YYY] text4
[XXX] text3
[YYY] text5
[ZZZ] text6
...
我试图做以下操作:
my_dict = {}
text, header = re.split('n[[A-Za-z]+]'), re.match('n[[A-Za-z]+]')
for idx, (header, text) in enumerate(zip(header, text)):
try:
my_dict[header] += text
except KeyError:
my_dict[header] = text
print idx
但这需要太长(IDX约为200k)。我可以以某种方式更快吗?
好吧,解决了...我将环将循环划分为10k步骤,这只是使其在Comperaion中快速运行。猜猜我只是拿起太多的ram