小贝子编程

使用beautuloup提取段落标记开头和换行符之间的文本

本文关键字：换行符之间文本开头 beautuloup 提取段落标使用 html python-3.x beautifulsoup html-parsing
更新时间 : 2023-09-18
英文 : Using beautifulsoup to extract text between the start of paragraph tag and a line break

我有以下HTML文档

<p>
"Year: 1932"
<br>
<br>
"Total Share : 0.5 Lakhs (Pure Estimate)"
<br>
<br>
"Verdict"
</p>

我目前正在使用BeautifulSoup获取HTML中的其他元素，但我无法按原样获取这些行。我只能在一行中获取它们。

像这样尝试

from bs4 import BeautifulSoup
response_data = <Your html tags>
soup_data = BeautifulSoup(response_data, features="html5lib")
string_data = soup_data.find('p').text.strip().replace("n", ",").replace(""", "").split(',')
data_list=[]
for strng in string_data:
if strng.strip():
data_list.append(strng.strip())
print(data_list)

尝试像<br/>那样关闭br

最新更新

yii2查询具有多个非和或的数据提供程序
Libgdx:渲染方法
Pycharm 错误：预期类型 [类名] 改为"str"
运行我的代码时出现错误:未知的自定义元素
在Selenium 4中使用Behat和Mink Selenium2驱动程序为Microsoft Edge浏览器运行测试
宽度未知的可变列数
我必须在.env文件中存储哨兵公钥吗?
Mongodb子文档没有自动生成对象id Typegoose/ mongoose
类型中构造函数的参数 0 需要找不到类型为"org.hibernate.SessionFactory"的 Bean
根据r中的日期和小时每隔15分钟聚合数据
如何解决关于Optuna存储的错误?
c语言中OO继承的混叠问题
launchWebAuthFlow窗口在chrome扩展关闭后保持打开
使用非初始结构变量作为参数调用函数不会产生警告
Pytorch - mat1和mat2形状不能相乘(3328x13和9216x4096)
我如何得到一个节点超时的内部id使用符号没有硬编码查找索引?
spring引导应用程序读取另一个jar的应用程序配置值吗?
如何在main.js中导入javascript库以在整个vue应用程序中获得全局可用性?
使段落出现，并使其在点击显示下一个段落时消失
GROUP_CONCAT(DISTINCT xxx)将连接值的顺序颠倒
r语言 - 循环遍历列表的列表
如何使用Pandas数据框架将R代码语法转换为Python语法?
当我运行服务器我得到这个错误:Django 405错误
如何将列表中的每个数字与另一个列表中的每个数字相乘
用其他字典中的值替换字典中值列表中的元素
super() 不能递增父类的类变量，但它会更新父类的类字典
Java中的冗余赋值vs赋值前检查
输入数据量变化;需要的建议
根据键合并两个数组，并使用mongo聚合添加新字段
显示头表，从数组的子列- Angular

使用beautuloup提取段落标记开头和换行符之间的文本

相关内容

最新更新

热门标签：