蟒蛇 - 美丽的汤 - 删除标签前的值<br>



我在一个用br分隔的标记中有数据,我正试图找出如何删除br标记之前的所有值,但遇到了困难。

下面是我的数据的一个例子:

<td>
ValueToBeDeleted
<br>
<br/> ValueToKeep
</td>

因此,我试图保留"ValueToKeep",并删除我正在处理的数据的TD标记中以前的值。此外,我的数据文件中有数百个这样的TD标记需要清理,所以我也在寻找迭代解决方案。有什么想法吗?

MayBe:

text = text.split('<br/>')[-1]
print(text.replace('</td>','').strip())

搭配BS4 BeautifulSoup:

from bs4 import BeautifulSoup as soup
soup_ = soup(html,'html.parser')
soup_ = soup_.find('td').text.split('n')[-2]

您可以将Regex用于特定任务

你可以尝试以下对我有效的代码(需要测试更多的案例(:

import re
html="""    <td>
ValueToBeDeleted
<br>
<br/> ValueToKeep
</td>"""
value_search = re.search(r'<br/>(.*)', html, re.IGNORECASE)
if value_search:
value = title_search.group(1)
print(value)

最新更新