Newspaper3k:如何取回已兑现的文章



这个文档说,默认情况下,报纸会缓存所有以前提取的文章,并删除任何已经提取的文章。

>>> cbs_paper = newspaper.build('http://cbs.com')
>>> cbs_paper.size()
1030
>>> cbs_paper = newspaper.build('http://cbs.com')
>>> cbs_paper.size()
2

好吧,但它什么也没说,如果我建了一个网站,我怎么能检索到兑现的文章?

newspaper3k使用memoryize为源缓存文章

将memoryize设置为false将停止缓存机制

cbs_paper = newspaper.build('http://cbs.com', memoize_articles=False)

但是,如果您仍然想要缓存并想要访问缓存的文章,您可以在temp文件夹中找到.newpaperscraper目录(windows机器中的路径(

C:Usersyour_userAppDataLocalTemp.newspaper_scrapermemoized

对于基于Linux的操作系统,请尝试查找

/tmp/.newspaper_scraper/memoized/

对于macOS,请查找$TMPDIR指定的目录。这可能是以下任何情况,也可能不是:

/tmp/.newspaper_scraper/memoized/
/private/tmp/.newspaper_scraper/memoized/
~/Library/Caches/TemporaryItems/.newspaper_scraper/memoized/

相关内容

  • 没有找到相关文章

最新更新