对于给定的维基百科文章,在文本中找到所有包含到输入文章的超链接的维基百科文章



让我试着解释一下我的问题:对于一个维基百科文章的url,假设Yann LeCun (https://en.wikipedia.org/wiki/Yann_LeCun),我想检索包含这个超链接的单词的维基百科文章的url。在这种情况下,例如,其中一个返回的URL可以是Meta AI文章的URL (https://en.wikipedia.org/wiki/Meta_AI),因为在该文章中有这个文本:

《FAIR》由纽约大学深度学习教授、图灵奖得主Yann LeCun执导。

是否有任何类型的API或python代码来做这样的事情?我看到了"这里有什么链接"该工具在维基百科中可用,但不幸的是,并非其输出列表中的所有文章都有指向输入文章的超链接文本。提前感谢

您可以使用这个查询来获取一篇文章中的所有维基链接:

https://en.wikipedia.org/w/api.php?action=query&支持= links&标题= Yann_LeCun& pllimit = 500, plnamespace = 0

然后,您可以遍历该列表并查询具有不同标题的相同端点,并检查原始文章是否出现在该列表中。您甚至可以使用pllimit参数来限制返回的内容,例如:

https://en.wikipedia.org/w/api.php?action=query&支持= links&标题= Meta_AI& pllimit = 500, plnamespace = 0, pltitles = Yann_LeCun

的回报:

{
"batchcomplete": "",
"query": {
"normalized": [
{
"from": "Meta_AI",
"to": "Meta AI"
}
],
"pages": {
"70734095": {
"pageid": 70734095,
"ns": 0,
"title": "Meta AI",
"links": [
{
"ns": 0,
"title": "Yann LeCun"
}
]
}
}
}
}

如果链接列表的长度是1,那么你有一个正匹配。

相关内容

最新更新