蟒蛇 - 美丽的汤 - 删除标签前的值<br> - Python - Beautiful Soup - delete values before <br> tag 小贝子编程网

我在一个用br分隔的标记中有数据，我正试图找出如何删除br标记之前的所有值，但遇到了困难。

下面是我的数据的一个例子：

<td>
ValueToBeDeleted
<br>
<br/> ValueToKeep
</td>

因此，我试图保留"ValueToKeep"，并删除我正在处理的数据的TD标记中以前的值。此外，我的数据文件中有数百个这样的TD标记需要清理，所以我也在寻找迭代解决方案。有什么想法吗？

MayBe:

text = text.split('<br/>')[-1]
print(text.replace('</td>','').strip())

搭配BS4 BeautifulSoup:

from bs4 import BeautifulSoup as soup
soup_ = soup(html,'html.parser')
soup_ = soup_.find('td').text.split('n')[-2]

您可以将Regex用于特定任务

你可以尝试以下对我有效的代码(需要测试更多的案例(：

import re
html="""    <td>
ValueToBeDeleted
<br>
<br/> ValueToKeep
</td>"""
value_search = re.search(r'<br/>(.*)', html, re.IGNORECASE)
if value_search:
value = title_search.group(1)
print(value)

蟒蛇 - 美丽的汤 - 删除标签前的值<br>

相关内容

最新更新

热门标签：