这个文档说,默认情况下,报纸会缓存所有以前提取的文章,并删除任何已经提取的文章。
>>> cbs_paper = newspaper.build('http://cbs.com')
>>> cbs_paper.size()
1030
>>> cbs_paper = newspaper.build('http://cbs.com')
>>> cbs_paper.size()
2
好吧,但它什么也没说,如果我建了一个网站,我怎么能检索到兑现的文章?
newspaper3k使用memoryize为源缓存文章
将memoryize设置为false将停止缓存机制
cbs_paper = newspaper.build('http://cbs.com', memoize_articles=False)
但是,如果您仍然想要缓存并想要访问缓存的文章,您可以在temp文件夹中找到.newpaperscraper目录(windows机器中的路径(
C:Usersyour_userAppDataLocalTemp.newspaper_scrapermemoized
对于基于Linux的操作系统,请尝试查找
/tmp/.newspaper_scraper/memoized/
对于macOS,请查找$TMPDIR
指定的目录。这可能是以下任何情况,也可能不是:
/tmp/.newspaper_scraper/memoized/
/private/tmp/.newspaper_scraper/memoized/
~/Library/Caches/TemporaryItems/.newspaper_scraper/memoized/