我是实时分布式搜索引擎弹性搜索的新手,但我想问一个技术问题。
我已经编写了一个python模块爬网程序,它解析网页并使用本地信息创建JSON对象。我的模块爬网程序的下一步是使用弹性搜索来存储本地信息。
真正的问题如下。哪种技巧更适合我的场合?弹性搜索RESTful API还是用于弹性搜索的python API(弹性搜索-py)?
如果您已经有了Python代码,那么最自然的方法就是使用elasticsearch-py
客户端。
通过pip install elatsicsearch
安装elasticsearch-py
库后,您可以找到一个简单的代码示例:
# import the elasticsearch library
from elasticsearch import Elasticsearch
# get your JSON data
json_page = {...}
# create a new client to connect to ES running on localhost:9200
es = Elasticsearch()
# index your JSON data
es.index(index="webpages", doc_type="webpage", id=1, body=json_page)
您也可以尝试elasticsearch_dsl
,它是elasticsearch
的高级包装器。