有没有办法从网站的HTML创建所有属性的数组？

我想创建一个程序，允许我输入一个超链接地址，输出将显示属性内容列表。例如，为Adventure Movies输入Netflix类型超链接，并接收该类型的所有电影标题和单个电影标题链接的列表输出。

我查看了这个类型的View Page Source数据，看到了下面的代码:

<script type="application/ld+json">
{"@context":"http://schema.org","@type":"ItemList","name":"Adventure Movies","itemListElement":
[{"@type":"ListItem","position":1,"item":{"@type":"Movie","name":"The Adam Project","url":"https://www.netflix.com/title/81309354"}},
{"@type":"ListItem","position":2,"item":{"@type":"Movie","name":"Red Notice","url":"https://www.netflix.com/title/81161626"}}

我在想有一种方法可以检索"名称"。和";url"属性，并将它们显示在数组中?

不幸的是，除了一些基本的HTML、CSS和Javascript之外，我对编程不太熟悉。我不确定需要什么编程语言来做这件事。似乎脚本是在JSON -我会使用JSON来做到这一点吗?

任何和所有的帮助是非常感谢!

JSON实际上只是一种组织数据的通用符号。它本身并不是一门语言。许多站点使用这种符号来发送/接收数据。它可以很好地与Javascript以及许多其他编程语言一起工作。

实际上，你要做的就是从netflix上抓取数据。具体如何去做可能取决于你的最终目标，以及你愿意学习什么技术。

虽然javascript可以很容易地操作json信息，但我相信您会遇到安全问题，试图从运行在netflix域之外的javascript文件中获取https://www.netflix.com/browse/genre/7442的内容。

Javascript和fetch通常用于获取获得许可的外部数据。理想情况下，从api端点返回json而不是html文件。不幸的是，netflix不再提供公共API。我不太了解它们，也不知道附加了什么字符串，但似乎有第三方为netflix数据提供api…

你需要看看它的合法性，但你也可以看看学习网络抓取工具，如:

Scrapy (Python) - https://scrapy.org/
美汤(Python) - https://www.crummy.com/software/BeautifulSoup/

相关内容

最新更新

热门标签：