使用re.findall在Python中创建链接抓取器



所以我将尝试为朋友创建这个刮刀。基本上,我希望它从一个网站上获取所有链接。就是这样。

我知道它会有点像:

links = re.findall()
print links

我在网上找到了re.finall,但不知道如何使用它!任何指向正确方向的指针都会有很大帮助!

试试BeautifulSoup。它处理糟糕的HTML,并为解析HTML提供了一个非常好的界面。另外,它真的很容易使用。这是你的刮刀(直接来自文档):

for link in soup.find_all('a'):
    print(link.get('href'))

最新更新