Map Reduce，计算一行中的一个参数，然后计算第二个参数

想象一下，我有一个装满行的日志文件：

"a，b，c"，而这些变量可以有任何值，但这些值确实会重复出现，这就是本分析的内容。

第一步

映射所有'c'URL，其中'a'

第二步

计数（减少）所有计数的c的（URL），这样我就有了一个列表，其中包含每个URL的总数。这很好用。

第三步

（尚未实施和本次调查的主题）

从步骤2中为每个计数的URL查找所有b（浏览器名称）。返回一个关系列表，例如字典ADT或JSON，如下所示：

[ { "url":Stackoverflow.com/login, "count": 200.654, "browsers":[ Firefox 33, IE 7, Opera ] }, {..}, {..} ],
我正在考虑在我的代码中引入一个组合器（见下文），或者链之类的东西。但这里真正的问题是，如何优化我的工作流程，使我只需运行一次所有日志行？
MapReduce作业（mrjob）
FULL_URL_WHERE_DOMAIN_EQUALS = mySuperCoolRegex class MRReferralAnalysis(MRJob): def mapper(self, _, line): for group in FULL_URL_WHERE_DOMAIN_EQUALS.findall(line): yield (group, 1) def reducer(self, itemOfInterest, counts): yield (sum(counts), itemOfInterest) def steps(self): return [ MRStep( mapper=self.mapper, reducer=self.reducer) ] if __name__ == '__main__': MRReferralAnalysis.run()
总结
这就是我想要的伪代码：

LOGS_1 -> MAPREDUCE OVER SOME_CRITERIA -> LIST_1 FOR EVERY ITEM IN LIST_1: LOGS_1 -> MAPREDUCE OVER ITEM_CRITERIA -> LIST_2

这里有一个非MRJob、非mapreduce解决方案。它在日志文件中运行一次。它与您的输出规范有点不同，browsers是（浏览器，计数）元组的列表，它生成无序的字典。CCD_ 2可以被取代。

假设一个文件看起来像这个

domain,browser,url
wonderful.edu,IE,wonderful.edu/pix
odd.org,Firefox,odd.org/login
wonderful.edu,Opera,wonderful.edu/pix

读取文件并按域、url、浏览器进行排序，以便与itertools.groupby 一起使用

import collections, itertools, operator
with open('fake.log') as f:
    lines = [tuple(line.strip().split(',')) for line in f]
lines.sort(key = operator.itemgetter(0,2,1))

一些有用的可调用

domain = operator.itemgetter(0)
browser = operator.itemgetter(1)
url = operator.itemgetter(2)

使用collections.Counter计算每个唯一url的浏览器数。url计数是所有浏览器计数的总和。

results = list()
FULL_URL_WHERE_DOMAIN_EQUALS = re.compile('.*.(edu|org|com)')
for d, group in itertools.groupby(lines, domain):
    # this outer loop only needed if filtering by domain
    if not FULL_URL_WHERE_DOMAIN_EQUALS.match(d):
        print d
        continue    
    for u, group2 in itertools.groupby(group, url):
        browsers = itertools.imap(browser, group2)
        browser_count = collections.Counter(browsers)
        results.append({'url' : u,
                        'count' : sum(browser_count.viewvalues()),
                        'browsers' : browser_count.items()}
                       )

生成

[{'browsers': [('Chrome', 2), ('IE', 4), ('Opera', 7), ('Firefox', 6)],
  'count': 19,
  'url': 'odd.org/foo'},
  {...},
  {...}]

第一步

第二步

MapReduce作业（mrjob）

总结

相关内容

最新更新

热门标签：