有没有办法从网站的HTML创建所有属性的数组?



我想创建一个程序,允许我输入一个超链接地址,输出将显示属性内容列表。例如,为Adventure Movies输入Netflix类型超链接,并接收该类型的所有电影标题和单个电影标题链接的列表输出。

我查看了这个类型的View Page Source数据,看到了下面的代码:

<script type="application/ld+json">
{"@context":"http://schema.org","@type":"ItemList","name":"Adventure Movies","itemListElement":
[{"@type":"ListItem","position":1,"item":{"@type":"Movie","name":"The Adam Project","url":"https://www.netflix.com/title/81309354"}},
{"@type":"ListItem","position":2,"item":{"@type":"Movie","name":"Red Notice","url":"https://www.netflix.com/title/81161626"}}

我在想有一种方法可以检索"名称"。和";url"属性,并将它们显示在数组中?

不幸的是,除了一些基本的HTML、CSS和Javascript之外,我对编程不太熟悉。我不确定需要什么编程语言来做这件事。似乎脚本是在JSON -我会使用JSON来做到这一点吗?

任何和所有的帮助是非常感谢!

JSON实际上只是一种组织数据的通用符号。它本身并不是一门语言。许多站点使用这种符号来发送/接收数据。它可以很好地与Javascript以及许多其他编程语言一起工作。

实际上,你要做的就是从netflix上抓取数据。具体如何去做可能取决于你的最终目标,以及你愿意学习什么技术。

虽然javascript可以很容易地操作json信息,但我相信您会遇到安全问题,试图从运行在netflix域之外的javascript文件中获取https://www.netflix.com/browse/genre/7442的内容。

Javascript和fetch通常用于获取获得许可的外部数据。理想情况下,从api端点返回json而不是html文件。不幸的是,netflix不再提供公共API。我不太了解它们,也不知道附加了什么字符串,但似乎有第三方为netflix数据提供api…

你需要看看它的合法性,但你也可以看看学习网络抓取工具,如:

  • Scrapy (Python) - https://scrapy.org/
  • 美汤(Python) - https://www.crummy.com/software/BeautifulSoup/
  • Selenium(被许多语言支持,包括JS with node) - https://www.selenium.dev/-这是一个更通用的浏览器自动化工具,不太特定于抓取。

最新更新