从表数据中删除nan ?



我使用BS4从HTML网页拉表,并试图将其添加到熊猫数据框架,但它是非常草率的,当我拉它,我似乎不能得到它正确打印,如果有人可以帮助?

网页上只有1个表可用,这是我使用的代码。还有它在拉什么

soup = BeautifulSoup(driver.page_source,'html.parser')
df = pd.read_html(str(soup))
print (df)

结果:

[   Unnamed: 0    Student Number     Student Name    Placement Date
0         NaN      20808456          Sandy Gurlow    01/13/2023 
1         NaN            NaN                NaN         NaN]

但是我试着用:

df.dropna(inplace=True)

我得到错误代码:

AttributeError: 'list' object has no attribute 'dropna'

pandas.read_html返回列表

你需要使用:

df = pd.read_html(driver.page_source)[0]

或者,在没有表的情况下避免IndexError:

l = pd.read_html(driver.page_source)
if l:
df = l[0]
else:
print('no table found')

最新更新