仅在路透社上抓取特定日期之后的新闻文章



我想从链接中提取新闻文章当你继续向下滚动时,旧的文章不断出现。但我只想要最近一年的信息。我如何设置过滤器?

试一下

下面的代码滚动直到找到18 days ago。将条件更改为a year ago,当它找到一年前的新闻时,循环将中断。

from selenium import webdriver
import time
driver = webdriver.Chrome(executable_path="path to chromedriver.exe")
driver.maximize_window()
driver.implicitly_wait(10)
driver.get("https://www.reuters.com/companies/AAPL.O")
i=0
try:
while True:
news = driver.find_elements_by_xpath("//div[@class='item']")
driver.execute_script("arguments[0].scrollIntoView(true);", news[i])
if news[i].find_element_by_tag_name("time").get_attribute("innerText") == "18 days ago":
break
print(news[i].find_element_by_tag_name("a").get_attribute("innerText"))
i += 1
time.sleep(.5)
except:
pass
driver.quit()

最新更新