我想抓取多个页面,但他们只会给出结束页面的结果这些是页面链接https://www.baroul-cluj.ro/tabloul-avocatilor/avocati-definitivi/
import pandas as pd
for page in range(1,26):
df=pd.read_html('https://www.baroul-cluj.ro/tabloul-avocatilor/avocati-definitivi/?wpv_view_count=9662&wpv_post_search=&wpv_paged={page}'.format(page=page))
df[0].to_csv('tab.csv',index=False)
这是因为您总是写入同一个文件,所以您将只得到最后废弃的数据。
解决这个问题的方法是每次创建一个新文件,像这样:
import pandas as pd
for page in range(1,26):
df = pd.read_html('https://www.baroul-cluj.ro/tabloul-avocatilor/avocati-definitivi/?wpv_view_count=9662&wpv_post_search=&wpv_paged={page}'.format(page=page))
df[0].to_csv(f"tab-{page}.csv",index=False)
或者如果您想要单个文件,您可以在写入CSV文件时使用追加模式。
import pandas as pd
for page in range(1,26):
df = pd.read_html('https://www.baroul-cluj.ro/tabloul-avocatilor/avocati-definitivi/?wpv_view_count=9662&wpv_post_search=&wpv_paged={page}'.format(page=page))
df[0].to_csv('tab.csv', mode='a', index=False, header=False)
mode="a"
:使用追加模式,而不是w
-默认的写入模式。index=False
:添加新数据时不包含索引列header=False
:在附加新数据时不包含标题。
注意:确保文件存在使用追加模式。