Pandas and HTML tags



我正试图从这个网站上删除表格。当我用pd.read_html加载URL时,我会像预期的那样返回一系列数据帧,但问题是表单元格中的html标记不见了。有没有什么方法可以使用panda撕毁表格并保留表格单元格中的HTML?

import pandas as pd
df = pd.read_html('http://geppopotamus.info/game/tekken7fr/asuka/data.htm#page_top')

我希望手机是这个

<span class="tooltip" title="すいけい">翠勁
<sup>ヨミ</sup></span><br>
<img src="../lp.bmp" class="c">/上

但是我有这个

翠勁 ヨミ /上

我使用了漂亮的汤来解析HTML,然后通过它将数据传递给熊猫,它仍然去掉了内部HTML。

pandas read_html已经解析了您的html。正如评论中提到的,看看BeautifulSoup吧。以下内容提取了所有的表标记html。您可以根据需要调整css选择器。

import requests
from bs4 import BeautifulSoup
url = 'http://geppopotamus.info/game/tekken7fr/asuka/data.htm#page_top'
res = requests.get(url)
soup = BeautifulSoup(res.content,'lxml')
tables = [str(table) for table in soup.select('table')]
print(tables)

最新更新