Regex从html中剪切CSS链接



我想用正则表达式从html页面中提取所有的css和js链接,现在我使用:

([^ ()]*.(?:css|js)b)

的模式,但它不完美的工作,我想排除符号像'{}()}'之前。css或。js的路径的链接。我尝试使用Jsoup解析器,但是,他不能从js脚本中提取<link..>标签,代码如下:

if( userAgent.match( /ipad|iphone|htc|android|windowss+phone/i ) ) {
document.write('<link rel="stylesheet" type="text/css" href="http://static.gazeta.ru/nm2012/css/new_common_css_pda54.css" />');
} else {
document.write('<link rel="stylesheet" type="text/css" href="http://static.gazeta.ru/nm2012/css/new_common_css275.css" />');
} 

您可以使用Javax DOM Parser,因为HTML是从XML派生的,或者更特定于HTML的,比如验证器。

最新更新