我使用BS4从HTML网页拉表,并试图将其添加到熊猫数据框架,但它是非常草率的,当我拉它,我似乎不能得到它正确打印,如果有人可以帮助?
网页上只有1个表可用,这是我使用的代码。还有它在拉什么
soup = BeautifulSoup(driver.page_source,'html.parser')
df = pd.read_html(str(soup))
print (df)
结果:
[ Unnamed: 0 Student Number Student Name Placement Date
0 NaN 20808456 Sandy Gurlow 01/13/2023
1 NaN NaN NaN NaN]
但是我试着用:
df.dropna(inplace=True)
我得到错误代码:
AttributeError: 'list' object has no attribute 'dropna'
pandas.read_html
返回列表
你需要使用:
df = pd.read_html(driver.page_source)[0]
或者,在没有表的情况下避免IndexError:
l = pd.read_html(driver.page_source)
if l:
df = l[0]
else:
print('no table found')