Apache Pig加载/存储关系时会发生什么



我正在学习Apache Pig。我也是Hadoop的新手。那么,有人能告诉我当Pig加载/存储关系时会发生什么吗?更详细地说,比如它将调用哪些函数,以何种顺序调用?

这将对我有很大帮助,谢谢:)

您不应该将LOAD/STORE视为孤立的。

当您发出一系列pig命令时,它将使用Java基于MapReduce API构建执行计划。它使用惰性评估,一旦遇到DUMP或STORE命令,就会提交地图缩减作业。

以下是示例脚本:

department_rows = LOAD '/apps/hive/warehouse/retail_ods.db/departments' ;
department_group = GROUP department_rows ALL;
department_count = FOREACH department_group GENERATE COUNT_STAR(department_rows) as ct;
DUMP department_count;

上面的查询试图获取表中的记录数。

LOAD命令将使用map reduce api从HDFS位置读取数据。数据将用清管器术语中的BAG表示。BAG分配给部门_行接下来的2条语句将转换为map reduce逻辑以获得计数DUMP将调用逻辑以返回标准输出中的最终输出。

在任何步骤,您都可以发布EXPLAIN(例如:EXPLAIN department_count),以使用map和reduce获得解释计划。如果你是Hadoop的新手,就很难理解它。你需要从HDFS的基础知识开始,映射reduce,然后进入Pig。

最新更新