我试图仅处理特定日期之后发生的事件。为了实现这一点,我尝试使用大于运算符传递过滤器参数(mapper_params)。然而,我得到了以下错误:"只支持相等过滤器"。
下面是我的run方法:
def run(self, action, occurred_after):
output = yield mapreduce_pipeline.MapreducePipeline(
"word_count",
"main.word_count_map",
"main.word_count_reduce",
"mapreduce.input_readers.DatastoreInputReader",
"mapreduce.output_writers.FileOutputWriter",
mapper_params={
"entity_kind": 'models.Event',
"filters": [("action", "=", action),
("occurred_on", ">", occurred_after )]
},
reducer_params={
"filesystem": "gs",
"gs_bucket_name": "mybucket/mapreduce_output",
"mime_type": "text/plain",
"output_sharding": "input"
},
shards=1)
有人知道为什么只支持"="操作符吗?
MapReduce内部在实体的KEY上使用一个不等式过滤器,将数据库分割成小块的实体。
首先,它查询一个只存在于一小部分实体中的秘密属性(平均每128次- 0.78%的机会),然后查询两个连续实体之间的实体(在实体x和实体x+128之间),然后在该列表中的每个实体上运行mapper函数(对于每个x, x+128组它创建一个任务)