电子邮件抓取器使用python美丽的汤或HTML模块



目前,我正在尝试从房地产经纪人发给我的房源中收集数据。它总是通过主站点"http://v3.torontomls.net"的链接,我认为只有房地产经纪人才能进入这个网站并过滤房屋,但是当她将其发送给我时,我可以看到房屋列表。

我想知道是否可以创建一个 python 脚本:(

1(打开Gmail 2(过滤她的电子邮件 3(打开她的一封电子邮件 4(点击链接 5(将房屋数据抓取为CSV格式

我不确定这样做的可行性,我从来没有使用过python来抓取网页。我可以看到步骤 5 是可行的,但是我该如何进行步骤 1 到 4?

是的,这是可能的,但您需要事先收集一些需求,以确定可以消除流程的哪些部分。例如,如果您的房地产经纪人每次都向您发送相同的链接,您可以直接定位该网址。例如,如果链接发生了变化,但按月参数化,则可以在每月处理结果时调整网址。

为了提出请求,我建议使用requests包和bs4(BeautifulSoup 4(来定位元素。要创建 CSV 文件,您可以选择使用csv,但如果您需要更特定于您的用例的内容,则有许多替代方案。

最新更新