Apache Pig加载/存储关系时会发生什么

我正在学习Apache Pig。我也是Hadoop的新手。那么，有人能告诉我当Pig加载/存储关系时会发生什么吗？更详细地说，比如它将调用哪些函数，以何种顺序调用？

这将对我有很大帮助，谢谢：）

您不应该将LOAD/STORE视为孤立的。

当您发出一系列pig命令时，它将使用Java基于MapReduce API构建执行计划。它使用惰性评估，一旦遇到DUMP或STORE命令，就会提交地图缩减作业。

以下是示例脚本：

department_rows = LOAD '/apps/hive/warehouse/retail_ods.db/departments' ;
department_group = GROUP department_rows ALL;
department_count = FOREACH department_group GENERATE COUNT_STAR(department_rows) as ct;
DUMP department_count;

上面的查询试图获取表中的记录数。

LOAD命令将使用map reduce api从HDFS位置读取数据。数据将用清管器术语中的BAG表示。BAG分配给部门_行接下来的2条语句将转换为map reduce逻辑以获得计数DUMP将调用逻辑以返回标准输出中的最终输出。

在任何步骤，您都可以发布EXPLAIN（例如：EXPLAIN department_count），以使用map和reduce获得解释计划。如果你是Hadoop的新手，就很难理解它。你需要从HDFS的基础知识开始，映射reduce，然后进入Pig。

相关内容

最新更新

热门标签：