如何从HTML页面刮预格式化的文本到CSV文件?



我使用selenium来自动化从http://curie.utmb.edu/getarea.html获取信息的协议,其中结果以文本形式显示在页面上。由于数据是预格式化的文本,而不是表,我不知道如何将结果数据转换为csv文件。

结果如下所示:结果页面的屏幕截图及其源代码

如果你能帮助我得到这个信息,我将不胜感激

我找到了问题的答案,只是把它贴在这里,以防对别人有帮助。

soup = BeautifulSoup(driver.page_source, "lxml")
prelist = soup.find_all('pre')
info = []
for pre in prelist:
info.append(pre.text)
with open ('getarea.txt', 'w') as file:
for i in info:
file.write('n'+ i)
with open ('getarea.txt') as fin, open( 'file_name.csv', 'w') as fout:
o=csv.writer(fout)
for line in fin:
o.writerow(line.split())