通过FS Crawler(弹性搜索)访问谷歌云存储桶



我目前正在进行的项目需要一个搜索引擎来搜索几个10000个pdf文件。当用户通过网站搜索某个关键词时,搜索引擎将返回与其搜索条件匹配的pdf文件片段。然后,用户可以选择点击一个按钮来查看整个pdf文件。

我认为最好的方法是使用弹性搜索+fscrawler(https://fscrawler.readthedocs.io/en/fscrawler-2.7/)。今天运行了一些测试,并且能够爬网到本地计算机上的文件夹。

对于提供PDF文件(通过网站(,我想我可以将PDF文件存储在谷歌云存储中,然后使用谷歌云存储的链接让用户查看PDF文件。但是,FS爬网程序似乎无法访问bucket。关于如何解决这个问题的任何提示或想法。欢迎批评上述工作方法。如果有更好的方法让网站的用户访问PDF文件,我很乐意听到。

提前感谢并致以亲切的问候!

您可以使用s3fs-fuse将s3 bucket装载到文件系统中,然后使用普通的本地FS爬网程序。

或者,您可以分叉fscrawler并为s3实现一个类似于crawler ftp的crawler。

最新更新