IBM 自然语言理解 - 返回页面标题



我正在使用 IBM Cloud NLU 来分析来自 URL 列表中的一系列网页。

API 成功返回实体,我也能够使用

return_analyzed_text => 'true';

我的问题是除了分析的文本之外,我还需要返回网页标题。

到目前为止,我的解决方案是分别卷曲每个页面,从DOM中提取标题元素,并将单独提取的标题信息与return_analyzed_text字符串相关联。这个额外的步骤增加了相当多的时间,而且似乎没有必要,因为 API 显然已经在卷曲页面。

有没有办法让 API 返回文档标题?(或任何其他 DOM 元素,如 H1?

如果您要求metadata- https://cloud.ibm.com/apidocs/natural-language-understanding#metadata,您可以让服务返回标题

根据文档,除了您已经传入以请求元数据的内容外,您还需要传入这些参数。

{
"url": "www.ibm.com",
"features": {
"metadata": {}
}
}

这会将额外的单位添加到您的 API 使用计数中。

最新更新