目前,据我所知,数据将从关系数据库Sqoope到HDFS中。从那里,Pig或M/R可以运行ETL相关的任务,并将转换后的数据放入HDFS的另一部分。如有必要,可以删除原始数据。
有没有办法避免将原始数据导入HDFS,并在数据通过Sqoop输入时对其运行PIG和M/R?这是怎么做到的?
Sqoop/Pig/Hive/MR本质上是面向批处理的(长时间),不能实时处理数据。考虑使用Flume/Storm/Samza/S4-等框架