雅虎财经或谷歌财经将阻止如果我将认购所有股票



我想检索几个交易所的所有股票-通过检索这些交易所内部的股票(通过获取http://www.nasdaq.com/screening/company-list.aspx)

然后我将报价从谷歌或雅虎的所有股票。

我的问题是,如果我每5秒或10秒引用一次,他们会阻止我吗?

获取所有股票及其更新数据的正确方法是什么?

谢谢!

David,

tl;dr - yahoo finance是OK的(抓取2000只股票)如果你在你的代码中插入暂停

我有一些笨拙的,但工作的代码(我的第一次尝试报废),从雅虎财经拉一些数据。虽然我不喜欢这个代码,我会在接下来的几周内为纳斯达克网站重写它,但我可以告诉你,我没有被屏蔽。

我有几年前罗素2000的股票列表,所以我慢慢地浏览了大约2000个股票,并从资产负债表中提取了一些数据。我正在使用Selenium(查看我的问题历史,只有一个可以看到/获得工作代码),代码加载Chromium web浏览器(Linux)点击资产负债表,抓取一些数据,点击季度链接,废弃更多数据,然后关闭浏览器。对于每个股票(股票)

为了安全起见,我在我的代码中添加了几个暂停,对于站点上的每个碎片或导航,我添加了5到10秒。这样我就可以慢慢地抓取数据,雅虎似乎对此没有意见:-)每个报价大约需要一分钟。我正在运行这个废料工作(第一次!)现在已经超过30个小时了,哈哈,我目前在以T开头的计时器上,所以我还有几个小时要去。

我在某个地方读到,一些网站也可以发现这种缓慢的抓取。所以作为一个想法,你可以在IDK, 7-15秒之间运行随机数生成器,而不是硬编码暂停7秒,这样暂停将更加随机,更不容易被发现……只是希望这能帮助一点,即使有延迟。

啊,如果这个答案对你有帮助,请把它标记为已解决并投票。也许我能得一两分。我的分数很低,我甚至不能给我喜欢的其他帖子投票,这对我很有帮助。

最新更新