我有一个大文本里面有一个超链接的词,我想知道所有的文本它是超链接的url假设我的文本如下:
LoremIpsum。Net是一个小而简单的静态站点,它为您提供了一个体面的大小的通道,而无需使用生成器。该网站还提供了一个全大写版本的文本,以及翻译,并解释了这个著名的。
现在我想把这个超链接的词和它的url存储在数组或哈希表中,谁能给我一些建议或提供一些示例代码来做到这一点?
请参阅本页"与Regex [c#]擦除的程序":http://www.dotnetperls.com/scraping-html
它基本上通过重新定义文本并收集匹配项来工作。
试试htmllagilitypack http://www.codeplex.com/htmlagilitypack
之类的 HtmlDocument doc = new HtmlDocument();
doc.Load("file.htm");
foreach(HtmlNode link in doc.DocumentElement.SelectNodes("//a[@href"])
{
HtmlAttribute att = link["href"];
// these are your hrefs!
}
如果你不使用合适的HTML解析器,你会失去理智的。