我想抓取这个网站:https://511.org/alerts/traffic/incidents 使用Apache Nutch。网页已动态加载 ajax 内容。如果我使用默认配置抓取它,Nutch 只会带来页眉和页脚,动态加载的内容会丢失。我正在使用坚果 1.14。
在 Nutch1.14 中,您可以使用 Nutch Selenium 或 Nutch Interactive Selenium 插件来抓取包含动态加载元素的页面。
我想抓取这个网站:https://511.org/alerts/traffic/incidents 使用Apache Nutch。网页已动态加载 ajax 内容。如果我使用默认配置抓取它,Nutch 只会带来页眉和页脚,动态加载的内容会丢失。我正在使用坚果 1.14。
在 Nutch1.14 中,您可以使用 Nutch Selenium 或 Nutch Interactive Selenium 插件来抓取包含动态加载元素的页面。
javascript python java c# php android html jquery c++ css ios sql mysql arrays asp.net json python-3.x ruby-on-rails .net sql-server django objective-c excel regex ruby linux ajax iphone xml vba spring asp.net-mvc database wordpress string postgresql wpf windows xcode bash git oracle list vb.net multithreading eclipse algorithm macos powershell visual-studio image forms numpy scala function api selenium