去除<img src=random.jpg>的所有内容和HTML中的<p>随机文本</p>



我正在尝试使用c# http模块从网页中剥离数据。我只想要原始文本和图像。我怎么能把其他东西都去掉呢?

private static Regex reg = new Regex(@"<img src=t????????");
public override void Write(byte[] buffer, int offset, int count)
    {
      byte[] data = new byte[count];
      Buffer.BlockCopy(buffer, offset, data, 0, count);
      string html = System.Text.Encoding.Default.GetString(buffer);
      html = reg.Replace(html, string.Empty);

      byte[] outdata = System.Text.Encoding.Default.GetBytes(html);
      _sink.Write(outdata, 0, outdata.GetLength(0));
    }

使用HTML解析器,如htmllagilitypack

最新更新