小贝子编程

去除<img src=random.jpg>的所有内容和HTML中的<p>随机文本</p>

本文关键字：HTML 随机文本中的 src img random jpg 去除 c# asp.net html iis httpmodule
更新时间 : 2023-08-25
英文 : strip out everything out side of <img src=random.jpg> and <p>random text</p> in html

我正在尝试使用c# http模块从网页中剥离数据。我只想要原始文本和图像。我怎么能把其他东西都去掉呢?

private static Regex reg = new Regex(@"<img src=t????????");
public override void Write(byte[] buffer, int offset, int count)
    {
      byte[] data = new byte[count];
      Buffer.BlockCopy(buffer, offset, data, 0, count);
      string html = System.Text.Encoding.Default.GetString(buffer);
      html = reg.Replace(html, string.Empty);

      byte[] outdata = System.Text.Encoding.Default.GetBytes(html);
      _sink.Write(outdata, 0, outdata.GetLength(0));
    }

使用HTML解析器，如htmllagilitypack

最新更新

我试图使用Plotly在python中创建一个地图图，但我的数据没有被导入或不能正常工作
JPA储存库.save在Netty服务器channelInitializer处理程序不工作
通常在kafka模式注册表中注册动态protobuf模式
如何使用窗口提示符作为货币反应
如何获得光标位置悬停在GTK-rs绘图区域?
Angular 12的数据绑定问题
使用Scapy和无线网卡扫描网络-网络不通错误
Amplify GraphQL DataStore : auth rules: groupsField being ig
Svelte自定义元素更新不工作
我的prinln方法没有输出我想要的相同输出
azure function poppler utils
r语言 - 取对角矩阵的幂
multiplication Table in dart
如何捕获从装饰器抛出"FilesInterceptor"错误
错误:fatal:不是git存储库(或任何父目录):.git云源存储库
创建一个Python字典，以开始值和结束值作为键
根据列唯一值对组执行多元线性回归
如何在VS Code中添加扩展的Git提交消息
是否有办法捕获HTTP响应中的错误(例如状态码500)，然后在selenium中失败脚本?
mysql恢复命令和授予特权
在r中使用lubridate make_datetime后的未知日期列类
如何从Firebase认证获得Twitter用户名- Javascript
在哪里存储凭证和其他机密的Apache Flink SQL?
包含具有相同外键的相关对象的查询集
为什么getter触发器有时在模板中?
使用ansible访问字典文件列表
奇怪的uint8_t转换与OpenCV
C语言在介子中的覆盖报告
如何根据第二个表的条件从一个表中选择值?
为什么在下一个.js " use client "组件顶部给我这个错误？

去除<img src=random.jpg>的所有内容和HTML中的<p>随机文本</p>

相关内容

最新更新

热门标签：