小贝子编程

没有标记就不能清理网络爬虫吗?用正则表达式做不干净吗?

本文关键字：正则表达式不干净爬虫网络就不能 python python-3.x html-parsing
更新时间 : 2023-09-16
英文 : Is it not possible to clean web crawl without tagging? Is it impossible to make it clean with regular expression?

data = re.sub('<[^>]*>', '', string=html).lower()

我想抓取随机页面。但是，由于不可能只抓取所需的内容，因此我发布了一个问题。在刮擦 html 后使用正则表达式删除它是否有效？

html2text library或pextract lib 对质疑有效

最新更新

在windows上使用R导入xkcd字体(适用于xkcd包)
如何在用户输入不正确的值后使python循环程序?
<picture> 元素在媒体查询/属性之间闪烁到 100% 宽度
Django模板-使用字符串从表单中呈现一个字段
didReadRSSI事件在声明后台模式进入后台时停止工作
Twilio SMS (Java)执行失败
如何使用相同的算法创建两个SSH密钥?
c -指针到数组，malloc和越界访问
遍历JavaScript数组不能产生正确的结果
RegEx在SAP 7.5中以字符的第一次出现开始并结束
使用MS Graph Rest APi上传文件到Documentset
忽略正则表达式搜索中的模式错误，不要使搜索崩溃
在一个帐户上有多个Youtube频道.如何将提供的API密钥限制为仅1个通道?
如何根据输入列表中的项数更改URL ?
scipy. integrated .quad给出ValueError:给出无效的可调用对象
将Pandas Datetime转换为Postgres Date
不能在caporal中使用prog模块
使用Powershell打开特定的Outlook配置文件
如何在WrapPanel中获得元素的坐标?
如何检查webpack.config.js中的监视模式?
如何创建动态正则表达式生成器?
ActorReferences作为Akka中其他角色的成员变量
我不知道有什么区别
文字SQL工作：数组值必须以"{"或维度信息开头
Go-使函数与外观相似的结构切片一起工作的惯用方法
在一个弹出窗口中管理多个输入的焦点
r语言 - 进行单向方差分析
当应用程序保持打开状态时，标识会话超时
在cmake中使用PUBLIC/PRIVATE/INTERFACE的例子
不能将反射字段强制转换为映射

没有标记就不能清理网络爬虫吗?用正则表达式做不干净吗?

相关内容

最新更新

热门标签：