查找超链接文本和URL

我有一个大文本里面有一个超链接的词，我想知道所有的文本它是超链接的url假设我的文本如下:

LoremIpsum。Net是一个小而简单的静态站点，它为您提供了一个体面的大小的通道，而无需使用生成器。该网站还提供了一个全大写版本的文本，以及翻译，并解释了这个著名的。

现在我想把这个超链接的词和它的url存储在数组或哈希表中，谁能给我一些建议或提供一些示例代码来做到这一点?

请参阅本页"与Regex [c#]擦除的程序":http://www.dotnetperls.com/scraping-html

它基本上通过重新定义文本并收集匹配项来工作。

试试htmllagilitypack http://www.codeplex.com/htmlagilitypack

之类的

 HtmlDocument doc = new HtmlDocument();
 doc.Load("file.htm");
 foreach(HtmlNode link in doc.DocumentElement.SelectNodes("//a[@href"])
 {
     HtmlAttribute att = link["href"];
   // these are your hrefs!
 }

如果你不使用合适的HTML解析器，你会失去理智的。

相关内容

最新更新

热门标签：