所以我将尝试为朋友创建这个刮刀。基本上,我希望它从一个网站上获取所有链接。就是这样。
我知道它会有点像:
links = re.findall()
print links
我在网上找到了re.finall,但不知道如何使用它!任何指向正确方向的指针都会有很大帮助!
试试BeautifulSoup。它处理糟糕的HTML,并为解析HTML提供了一个非常好的界面。另外,它真的很容易使用。这是你的刮刀(直接来自文档):
for link in soup.find_all('a'):
print(link.get('href'))