我在一个用br分隔的标记中有数据,我正试图找出如何删除br标记之前的所有值,但遇到了困难。
下面是我的数据的一个例子:
<td>
ValueToBeDeleted
<br>
<br/> ValueToKeep
</td>
因此,我试图保留"ValueToKeep",并删除我正在处理的数据的TD标记中以前的值。此外,我的数据文件中有数百个这样的TD标记需要清理,所以我也在寻找迭代解决方案。有什么想法吗?
MayBe:
text = text.split('<br/>')[-1]
print(text.replace('</td>','').strip())
搭配BS4 BeautifulSoup:
from bs4 import BeautifulSoup as soup
soup_ = soup(html,'html.parser')
soup_ = soup_.find('td').text.split('n')[-2]
您可以将Regex用于特定任务
你可以尝试以下对我有效的代码(需要测试更多的案例(:
import re
html=""" <td>
ValueToBeDeleted
<br>
<br/> ValueToKeep
</td>"""
value_search = re.search(r'<br/>(.*)', html, re.IGNORECASE)
if value_search:
value = title_search.group(1)
print(value)