Newspaper3k:如何取回已兑现的文章

这个文档说，默认情况下，报纸会缓存所有以前提取的文章，并删除任何已经提取的文章。

>>> cbs_paper = newspaper.build('http://cbs.com')
>>> cbs_paper.size()
1030
>>> cbs_paper = newspaper.build('http://cbs.com')
>>> cbs_paper.size()
2

好吧，但它什么也没说，如果我建了一个网站，我怎么能检索到兑现的文章？

newspaper3k使用memoryize为源缓存文章

将memoryize设置为false将停止缓存机制

cbs_paper = newspaper.build('http://cbs.com', memoize_articles=False)

但是，如果您仍然想要缓存并想要访问缓存的文章，您可以在temp文件夹中找到.newpaperscraper目录(windows机器中的路径(

C:Usersyour_userAppDataLocalTemp.newspaper_scrapermemoized

对于基于Linux的操作系统，请尝试查找

/tmp/.newspaper_scraper/memoized/

对于macOS，请查找$TMPDIR指定的目录。这可能是以下任何情况，也可能不是：

/tmp/.newspaper_scraper/memoized/
/private/tmp/.newspaper_scraper/memoized/
~/Library/Caches/TemporaryItems/.newspaper_scraper/memoized/

相关内容