Pandas and HTML tags

我正试图从这个网站上删除表格。当我用pd.read_html加载URL时，我会像预期的那样返回一系列数据帧，但问题是表单元格中的html标记不见了。有没有什么方法可以使用panda撕毁表格并保留表格单元格中的HTML？

import pandas as pd
df = pd.read_html('http://geppopotamus.info/game/tekken7fr/asuka/data.htm#page_top')

我希望手机是这个

<span class="tooltip" title="すいけい">翠勁
<sup>ﾖﾐ</sup></span><br>
<img src="../lp.bmp" class="c">/上

但是我有这个

翠勁 ﾖﾐ /上

我使用了漂亮的汤来解析HTML，然后通过它将数据传递给熊猫，它仍然去掉了内部HTML。

pandas read_html已经解析了您的html。正如评论中提到的，看看BeautifulSoup吧。以下内容提取了所有的表标记html。您可以根据需要调整css选择器。

import requests
from bs4 import BeautifulSoup
url = 'http://geppopotamus.info/game/tekken7fr/asuka/data.htm#page_top'
res = requests.get(url)
soup = BeautifulSoup(res.content,'lxml')
tables = [str(table) for table in soup.select('table')]
print(tables)

相关内容

最新更新

热门标签：