Python:熊猫使用它的唯一表格读取特定的html表格 标题



我从Python熊猫开始,需要一些指导。假设我有一个由多个表组成的 html 文件,每个表都由每个表的标题唯一标识,即表号 135 等。

如果我希望使用唯一的标题">Table 246"来识别和读取该表,Python Pandas 如何在忽略其他表的情况下专门读取此表?我需要使用它的标题来阅读这个表 246,因为这个文件中表的顺序不是固定的,它是动态的。

一直在互联网上搜索,但没有找到任何关于使用表格标题来识别该表格的解决方案。

我的 html 文件内容

<html>
<head>
<meta http-equiv="Content-type" content="text/html;charset=UTF-8" />
</head>
<body>
<p>
<table border=1>
<caption align=left>Table 135</caption>
<tr bgcolor="#d4d0c8" bordercolor=black>
<th bordercolor=black>User Name</th>
<th bordercolor=black>Mobile Number</th>
</tr>
<tr bordercolor=black>
<td bordercolor=black bgcolor=white>John</td>
<td bordercolor=black bgcolor=white>1234567890</td>
</tr>
</table>
</p>
<p>
<table border=1>
<caption align=left>Table 246</caption>
<tr bgcolor="#d4d0c8" bordercolor=black>
<th bordercolor=black>Salary</th>
<th bordercolor=black>Experience</th>
</tr>
<tr bordercolor=black>
<td bordercolor=black bgcolor=white>$5000</td>
<td bordercolor=black bgcolor=white>10</td>
</tr>
</table>
</p>
</body>
</html>

您可以尝试以下代码来提取 html 表:

import pandas as pd
df = pd.read_html("test.html", match='Table 246')
df[0]

示例代码:

https://github.com/biranchi2018/Misc/blob/master/1.Extracting%20HTML%20using%20Pandas.ipynb

谢谢

最新更新