我正试图从一个有2000多张图片的网站上抓取图片。当我调用链接到图像的网站部分时,控制台中只显示了大约1/2的信息,因为打印的行太多了。我需要看到被切断的开始信息,我想只显示一些条目。如何在行项目中仅显示2000+条目的范围(例如,从1-10(?
我使用的是:
containers = page_soup.findAll("div", {"class": "image_list"})
containers[0]
这里有各种可能性:
1.在脚本中执行
这将打印前10个容器:
containers = page_soup.findAll("div", {"class": "image_list"})[0:10]
for c in containers:
print(c)
2.在外壳中执行
您可以打印所有的容器,并使用shell命令只过滤您想要查看的行。这样,您就可以灵活地更改输出,而无需反复编辑代码。
在您的脚本中,我们将打印所有容器:
containers = page_soup.findAll("div", {"class": "image_list"})
for c in containers:
print(c)
外壳内:
这将打印前10行:
python name_of_my_script.py | head
这将打印第5行至第10行:
python name_of_my_script.py | sed -n '5,10p'
这将打印最后10行:
python name_of_my_script.py | tail
查找手册页面以获取更多信息。
使用索引:
containers = page_soup.findAll("div", {"class": "image_list"})[0:10]
这将使容器具有前10个元素(因此您将打印10个元素(。