我想创建一个程序,允许我输入一个超链接地址,输出将显示属性内容列表。例如,为Adventure Movies输入Netflix类型超链接,并接收该类型的所有电影标题和单个电影标题链接的列表输出。
我查看了这个类型的View Page Source数据,看到了下面的代码:
<script type="application/ld+json">
{"@context":"http://schema.org","@type":"ItemList","name":"Adventure Movies","itemListElement":
[{"@type":"ListItem","position":1,"item":{"@type":"Movie","name":"The Adam Project","url":"https://www.netflix.com/title/81309354"}},
{"@type":"ListItem","position":2,"item":{"@type":"Movie","name":"Red Notice","url":"https://www.netflix.com/title/81161626"}}
我在想有一种方法可以检索"名称"。和";url"属性,并将它们显示在数组中?
不幸的是,除了一些基本的HTML、CSS和Javascript之外,我对编程不太熟悉。我不确定需要什么编程语言来做这件事。似乎脚本是在JSON -我会使用JSON来做到这一点吗?
任何和所有的帮助是非常感谢!
JSON实际上只是一种组织数据的通用符号。它本身并不是一门语言。许多站点使用这种符号来发送/接收数据。它可以很好地与Javascript以及许多其他编程语言一起工作。
实际上,你要做的就是从netflix上抓取数据。具体如何去做可能取决于你的最终目标,以及你愿意学习什么技术。
虽然javascript可以很容易地操作json信息,但我相信您会遇到安全问题,试图从运行在netflix域之外的javascript文件中获取https://www.netflix.com/browse/genre/7442的内容。
Javascript和fetch通常用于获取获得许可的外部数据。理想情况下,从api端点返回json而不是html文件。不幸的是,netflix不再提供公共API。我不太了解它们,也不知道附加了什么字符串,但似乎有第三方为netflix数据提供api…
你需要看看它的合法性,但你也可以看看学习网络抓取工具,如:
- Scrapy (Python) - https://scrapy.org/
- 美汤(Python) - https://www.crummy.com/software/BeautifulSoup/ Selenium(被许多语言支持,包括JS with node) - https://www.selenium.dev/-这是一个更通用的浏览器自动化工具,不太特定于抓取。