从HTML脚本中抓取LinkedIn公司名称,位置和关注者



我可以抓取到公司的名称,位置。使用下面的代码。但是我很难达到关注者的数量

这里是HTML脚本供参考。

<div class="block mt2">
<div>
<h1 class="ember-view t-24 t-black t-bold full-width" id="ember28" title="Pacific Retail Capital Partners">
<span dir="ltr">Pacific Retail Capital Partners</span>
</h1>
<p class="org-top-card-summary__tagline t-16 t-black">
Our decades of experience and innovative strategies are transforming retail-led centers into high-performing properties.
</p>
<!-- -->
<div class="org-top-card-summary-info-list t-14 t-black--light">
<div class="org-top-card-summary-info-list__info-item">
Leasing Non-residential Real Estate
</div>
<!-- -->
<div class="inline-block">
<div class="org-top-card-summary-info-list__info-item">
El Segundo, CA
</div>
<!-- -->
<div class="org-top-card-summary-info-list__info-item">
4,047 followers
</div>
</div>
</div>
</div>
</div>

取消公司名称简单直接

info_div = soup.find('div', {'class' : 'block mt2'})
#print(info_div)
info_name = info_div.find_all('h1')
company_name = info_name[0].get_text().strip()
print(company_name, type(company_name),len(company_name))

使用this访问公司位置。

info_block = info_div.find_all('div', {'class' : 'inline-block'})
info_loc = info_block[0].find('div', {'class' : 'org-top-card-summary-info-list__info-item'}).get_text().strip()
print(info_loc)

如何抓取/访问第二个元素,即4047个关注者?

可以在CSS选择器中使用contains操作符,在本例中,我们将在指定类名的div中搜索追随者:

followers_div = soup.select_one('.org-top-card-summary-info-list__info-item:contains(followers)')

这回报:

<div class="org-top-card-summary-info-list__info-item">
4,047 followers
</div>

最新更新