如何在 csv 文件中存储熊猫数据帧信息



我是抓取和python的新手。我正在尝试从此 URL 中抓取多个表:https://en.wikipedia.org/wiki/List_of_Game_of_Thrones_episodes。我进行了抓取,现在我正在尝试将数据帧保存到 csv 文件。我试过了,但它只是存储页面中的第一个表。

法典:

from pandas.io.html import read_html
page = 'https://en.wikipedia.org/wiki/List_of_Game_of_Thrones_episodes'
wikitables = read_html(page, index_col=0, attrs={"class":"wikitable plainrowheaders wikiepisodetable"})
print ("Extracted {num} wikitables".format(num=len(wikitables)))

for line in range(7):
df= pd.DataFrame(wikitables[line].head())
df.to_csv('file1.csv')

您需要将数据帧列表重塑为单个数据帧,然后需要将其导出为 csv 文件。

wikitable = wikitables[0]
for i in range(1,len(wikitables)):
wikitable = wikitable.append(wikitables[i],sort=True)
wikitable.to_csv('wikitable.csv')

你忘了

import pandas as pd

但是您不需要它,因为read_html提供了数据帧列表,并且您不必将其转换为数据帧。你可以直接写。

from pandas.io.html import read_html
url = 'https://en.wikipedia.org/wiki/List_of_Game_of_Thrones_episodes'
wikitables = read_html(url, index_col=0, attrs={"class":"wikitable plainrowheaders wikiepisodetable"})
print("Extracted {num} wikitables".format(num=len(wikitables)))
for i, dataframe in enumerate(wikitables):
dataframe.to_csv('file{}.csv'.format(i))

相关内容

最新更新