当我从网站上抓取数据时,它只会返回一行换行符



我尝试过使用不同网站和元素的代码,但都不起作用。

import requests
from lxml import html 
page = requests.get('https://www.instagram.com/username.html')
tree = html.fromstring(page.content)
follow = tree.xpath('//span[@class="g47SY"]/text()')
print(follow)
input()

上面是我试图用来获取某人在instagram上的粉丝数量的代码。

网络抓取Instagram的一个问题是,包括标签属性值在内的许多内容都是动态呈现的。所以你用来获取追随者的类可能会改变。

如果您能够在Python中使用Beautiful Soup库,那么解析页面和获取数据可能会更容易。您可以使用pip install bs4进行安装。然后,您可以搜索遵循Open Graph协议的og:description描述符,并对其进行解析以获得追随者计数。

下面是一个应该获得特定用户的追随者计数的示例脚本:

import requests
from bs4 import BeautifulSoup
username = 'google'
html = requests.get('https://www.instagram.com/' + username)
bs = BeautifulSoup(html.text, 'lxml')
item = bs.select_one("meta[property='og:description']")
name = item.find_previous_sibling().get("content").split("•")[0]
follower_count = item.get("content").split(",")[0]
print(follower_count)

最新更新