如何将数据从mapreduce part-r的输出加载到Pig或Hive



我从mapreduce作业中以以下格式生成了作为r部分的数据:

(19,[2468:5.0,1894:5.0,3173:5.0,3366:5.0,3198:5.0,1407:5.0,407:5.0,1301:5.0,2153:5.0,3007:5.0])
(20,[3113:5.0,3285:5.0,3826:5.0,3755:5.0,373:5.0,3510:5.0,3300:5.0,22:5.0,1358:5.0,3273:5.0])

19 和 20 是用户 ID,[] 中的数组是针对用户的建议,每个建议用逗号分隔。我想以表格格式加载此数据 - 第 1 行 =19,2468,5.0,3175,第 2 行 = 19、1894、5.0、3173 等。

我怎样才能通过猪或蜂巢来实现这一点?

到目前为止,我已经在 Pig 中尝试过,但无法解析以获得所需的输出。

我希望创建一个报告,我可以在其中显示用户名(通过与用户表连接)、为用户推荐的电影名称(通过加入电影表)和用户评级。

在上面的数据中,19 是用户 ID。括号内是该用户推荐的电影 ID 以及评级。每个建议都用逗号分隔。

相关内容

最新更新