如何在没有多余的内容的情况下获取网站的内容？

我有一个包含网站内容的字符串，例如（概述，插入标签和脑海中的内容）

$string = '<html>
  <head>
    <meta content="text/html; charset=ISO-8859-1" http-equiv="content-type">
    <title>Some title
    </title>
  </head>
  <body>Navigation
    <br><div>CSS</div>
    <br><div>JavaScript</div>
    <br>Advertising
    <br><div>Content</div>
    <br>Navigation
    <br>Advertising
    <br>Inprint
    <br>
  </body>
</html>'

如何在没有多余的情况下获得内容？根据内容，我不是说"内容"一词，而是网站所拥有的任何真实内容。

例如，在论坛中，我希望论坛的条目没有导航，标签，广告。

我尝试了string s = Regex.Replace(string, "<.*?>", String.Empty);，它只是剥夺了标签，但没有获取内容。

网站上是否有一些重复的模式并可以利用可以帮助我进入内容而没有混乱的内容？

您可以使用HTML敏捷包Nuget软件包。它非常灵活，您可以通过它想要实现的目标非常具体。

这是有关如何在页面中获取所有超链接的示例：

HtmlDocument document2 = new HtmlDocument();  
document2.Load(@"C:Tempsample.txt")  
HtmlNode[] nodes = document2.DocumentNode.SelectNodes("//a").ToArray();  
foreach (HtmlNode item in nodes)  
{  
    Console.WriteLine(item.InnerHtml);  
}

这里还有更多示例。

相关内容

最新更新

热门标签：