一次简化运行多个请求的过程



我有一个网站计划,该网站需要一次刮擦多个网站。我正在考虑如何尽可能快地做到这一点,但我真的不知道如何做到。

我正在使用PHP简单的HTML DOM解析器来刮擦一些某些项目的网站。看起来像这样:

$html = file_get_html($fullUrl);
$collection = $html->find('div.info');

如果我想一次刮擦多个站点,我可以通过将其分支到不同的PHP传说中来简化刮擦过程,也许可以使用单独的simple_html_dom.php文档来简化刮擦过程?A页在哪里向第B和C页进行一个请求,每个页面单独返回数据。

我已经研究了PHP-MultithReading,并得出结论,它还有点先进,我不太了解如何将现有模板实现到我的特定代码设置中。

任何想法都将不胜感激。先感谢您。

如果我是您,我肯定会在PHP中进行并行处理,无论您认为是"高级"

这是一般思想的一些伪代码:

while(hasMoreSitesForScrapingInQueue){
     if(numOfCurrentlyRunningProcesses < maxNumberOfProcesses){
          // create new process that invokes file_get_html() and completes associated logic
     }
}

最新更新