等待 iframe 被打开和抓取太慢，无法抓取 js

我正在尝试抓取一个用tr，br和iframe构建的旧网站。在我开始想要从 iframe 中提取数据之前，到目前为止一切都很顺利，请参阅iFrameScraping setTimeout，但点击太快了，我无法获取数据。有人知道如何点击，等待内容显示并被抓取，然后继续吗？

  const newResult = await page.evaluate(async(resultLength) => {
    const elements = document.getElementsByClassName('class');
    for(i = 0; i < resultLength; i++) {
      const companyArray = elements[i].innerHTML.split('<br>');
      let companyStreet,
          companyPostalCode;
      // Get company name
      const memberNumber = elements[i].getElementsByTagName('a')[0].getAttribute('href').match(/[0-9]{1,5}/)[0];
      const companyName = await companyArray[0].replace(/<a[^>]*><span[^>]*></span>/, '').replace(/</a>/, '');
      const companyNumber = await companyArray[0].match(/[0-9]{6,8}/) ? companyArray[0].match(/[0-9]{6,8}/)[0] : '';
      // Get town name
      const companyTown = await companyArray[1].replace('"', '');
      // Get region name
      const companyRegion = await companyArray[2].replace(/<span[^>]*>Some text:</span>/, '');
      // Get phone number
      const telNumber = await elements[i].innerHTML.substring(elements[i].innerHTML.lastIndexOf('</span>')).replace('</span>', '').replace('<br>', '');

      const iFrameScraping = await setTimeout(async({elements, i}) => {
        elements[i].getElementsByTagName('a')[0].click();
        const iFrameContent = await document.getElementById('some-id').contentWindow.document.getElementById('lblAdresse').innerHTML.split('<br>');
        companyStreet = iFrameContent[0].replace('"', '');
        companyPostalCode = iFrameContent[2].replace('"', '');
      }, 2000, {elements, i});
      console.log(companyStreet, companyPostalCode)
    };
  }, pageSearchResults.length);

一段时间后我解决了我的问题，所以我将分享我的解决方案。

我补充说停止使用评估中的循环获取所有数据，因为它会很快并创建竞争条件。相反，我使用了 page.$$ 和 for...的循环。请注意，来自 es6 的 forEach 也会导致争用条件，因为傀儡师不会等待它们结束以继续执行。

这是我更新的代码中的示例：

 const companies = await page.$$('.repmbr_result_item');
  const companiesLinks = await page.$$('.repmbr_result_item a');
  for(company of companies) {
    const companyEl = await page.evaluate(el => el.innerHTML, company)
    const companyElArray = companyEl.split('<br>');

相关内容

最新更新

热门标签：