通过pandas抓取多个页面



我想抓取多个页面,但他们只会给出结束页面的结果这些是页面链接https://www.baroul-cluj.ro/tabloul-avocatilor/avocati-definitivi/

import pandas as pd
for page in range(1,26):
df=pd.read_html('https://www.baroul-cluj.ro/tabloul-avocatilor/avocati-definitivi/?wpv_view_count=9662&wpv_post_search=&wpv_paged={page}'.format(page=page))
df[0].to_csv('tab.csv',index=False)

这是因为您总是写入同一个文件,所以您将只得到最后废弃的数据。

解决这个问题的方法是每次创建一个新文件,像这样:

import pandas as pd
for page in range(1,26):
df = pd.read_html('https://www.baroul-cluj.ro/tabloul-avocatilor/avocati-definitivi/?wpv_view_count=9662&wpv_post_search=&wpv_paged={page}'.format(page=page))
df[0].to_csv(f"tab-{page}.csv",index=False)

或者如果您想要单个文件,您可以在写入CSV文件时使用追加模式。

import pandas as pd
for page in range(1,26):
df = pd.read_html('https://www.baroul-cluj.ro/tabloul-avocatilor/avocati-definitivi/?wpv_view_count=9662&wpv_post_search=&wpv_paged={page}'.format(page=page))
df[0].to_csv('tab.csv', mode='a', index=False, header=False)
  • mode="a":使用追加模式,而不是w-默认的写入模式。
  • index=False:添加新数据时不包含索引列
  • header=False:在附加新数据时不包含标题。

注意:确保文件存在使用追加模式。

最新更新