Sqoop在导入时可以执行任何与ETL相关的任务吗



目前,据我所知,数据将从关系数据库Sqoope到HDFS中。从那里,Pig或M/R可以运行ETL相关的任务,并将转换后的数据放入HDFS的另一部分。如有必要,可以删除原始数据。

有没有办法避免将原始数据导入HDFS,并在数据通过Sqoop输入时对其运行PIG和M/R?这是怎么做到的?

Sqoop/Pig/Hive/MR本质上是面向批处理的(长时间),不能实时处理数据。考虑使用Flume/Storm/Samza/S4-等框架

相关内容

  • 没有找到相关文章

最新更新