当我从网站上抓取数据时，它只会返回一行换行符

我尝试过使用不同网站和元素的代码，但都不起作用。

import requests
from lxml import html 
page = requests.get('https://www.instagram.com/username.html')
tree = html.fromstring(page.content)
follow = tree.xpath('//span[@class="g47SY"]/text()')
print(follow)
input()

上面是我试图用来获取某人在instagram上的粉丝数量的代码。

网络抓取Instagram的一个问题是，包括标签属性值在内的许多内容都是动态呈现的。所以你用来获取追随者的类可能会改变。

如果您能够在Python中使用Beautiful Soup库，那么解析页面和获取数据可能会更容易。您可以使用pip install bs4进行安装。然后，您可以搜索遵循Open Graph协议的og:description描述符，并对其进行解析以获得追随者计数。

下面是一个应该获得特定用户的追随者计数的示例脚本：

import requests
from bs4 import BeautifulSoup
username = 'google'
html = requests.get('https://www.instagram.com/' + username)
bs = BeautifulSoup(html.text, 'lxml')
item = bs.select_one("meta[property='og:description']")
name = item.find_previous_sibling().get("content").split("•")[0]
follower_count = item.get("content").split(",")[0]
print(follower_count)

相关内容

最新更新

热门标签：