如何在javascript中提取URL的元数据



我想提取与URL相关的图像和描述。例如,如果URL是https://www.google.com然后我想从中提取谷歌标志图像URL。我在NodeJS中工作。有没有什么npm库或API?

我正在使用https://jsonlink.io端点,只需使用URL对其端点进行fetch((调用,即可获取元数据

使用名为metascraper的npm包。

例如,要从google.com获得徽标,您可以:

const metascraper = require('metascraper')([
require('metascraper-image')(),
])
const got = require('got')
const targetUrl = 'https://google.com'
;(async () => {
const { body: html, url } = await got(targetUrl)
const metadata = await metascraper({ html, url })
console.log(metadata)
})()

您将得到这作为对上述代码的响应:

{
image: 'https://www.google.com/images/branding/googleg/1x/googleg_standard_color_128dp.png'
}

别忘了添加package.json:

npm install metascraper metascraper-image --save

您可以根据要从url中提取的内容添加其他规则捆绑包。

我不确定我是否理解正确,但也许你的目标是从url中提取url参数?

看看这个:

const url = "https://example.com/?product=shirt&color=blue&newuser&size=m"
const urlParams = new URLSearchParams(url);
urlParams.get('color')

将返回";蓝色";

https://www.sitepoint.com/get-url-parameters-with-javascript/

https://developer.mozilla.org/en-US/docs/Web/API/URLSearchParams

因为如果你想检索实际的图片等等,你需要在url后面有一个实际的文档,而不仅仅是一个url

最新更新