小贝子编程

尝试刮擦React网站时获取index.html内容

本文关键字：获取 index html 内容网站 React javascript node.js reactjs web-scraping
更新时间 : 2023-09-13
英文 : Getting index.html content while trying to scrape a react website

当我尝试使用nodejs刮擦reactjs网站时，我将获得index.html文件的内容。这是我尝试的 -

    const request = require("request");
    const cheerio = require("cheerio");
    const URL = "https://pydata-jal.netlify.com/";
    request(URL, (err, res, body) => {
      if (!err && res.statusCode == 200) {
        const $ = cheerio.load(body);
        console.log($.html());
      }
    });

我该怎么做才能获取React网站中使用的全部标签。

告诉我可以刮擦Hackernoon网站？(例如(如果合法？

Cheerio解析仅渲染HTML(例如：静态HTML(为了获得React渲染，您应该依靠由Puppeteer等工具控制的无头浏览器

最新更新

获取用户定义对象数组的最后一个元素
Bash脚本导入sql转储到正确的数据库
Pyomo MINLP解算器没有选择最优结果
如果对象id在其他对象id中有自己的属性，则更改数组中的对象值
AssertionError:此优化器没有记录inf检查
数据导入问题
如何从两个不同的房间表中收集流，并将数据组合在android的recyclerview中显示
DynamoDB全局索引vs本地索引
防止从iframe滚动，但仍然可以点击javascript
使用正则表达式将'team'标签动态添加到普罗米修斯中的警报
无法在nextjs 13中更新next-auth v4的会话
R rlang: call_args in dplyr::mutate
如何在Azure容器应用程序上部署React Python应用程序时解决此错误?
如何在不泄露源代码的情况下销售chrome扩展
wp.blocks.blockRegisterType在控制台显示错误- Gutenberg Wordpress.<
物质化在shadowroot内的Modal内初始化自动完成不工作
如何使用micronaut实现基于模式的多租户
授权非admin用户在Google Apps Script中运行admin SDK
需要退出函数，但没有得到一个不允许的值错误
合并两个调用并使用typeahead ngx-bootstrap显示结果?
如何发送文本和二进制套接字在单一消息在C?
我如何隐藏(而不是禁用)在Django admin的动作添加模型按钮在ModelAdmin列表视图?
AWS CloudFormation：Cognito LambdaTrigger CustomEmailSender - 属性"Not currently supported by AWS Cloud
Python Discord bot !命令的权限
GitHub上下文变量未针对可重用工作流引用进行评估
停止滑动眼睛.IO克隆，相位器3
我正在尝试运行美洲驼索引模型，但是当我进入索引构建步骤时 - 它一次又一次地失败，我该如何解决这个问题？
502坏网关与Nginx服务器托管.net核心项目
LG Hub Script Non-Functional
c -对齐检查在WebAssembly时，模拟XMM的内在?

尝试刮擦React网站时获取index.html内容

相关内容

最新更新

热门标签：