zgrep in hadoop streaming



我试图在S3/AWS&将输出写入具有相同文件名的新位置

我在S3上使用以下使用,这是编写First Cat Command到HDFS输出的流量输出的正确方法吗?

hadoop fs -cat s3://analytics/LZ/2017/03/03/test_20170303-000000.tar.gz | zgrep -a -E '*word_1*|*word_2*|word_3|word_4' | hadoop fs -put - s3://prod/project/test/test_20170303-000000.tar.gz
  1. 鉴于您正在使用Hadoop,为什么不在集群中运行代码?扫描.gzip文件中的字符串很常见,尽管我不知道.tar文件。
  2. 我会亲自使用-copyToLocal-copyFromLocal命令将其复制到本地FS并在此处工作。诸如-cat之类的问题是在Hadoop客户端代码上记录了很多东西,因此管道可能会捡起太多的外部crufft,

相关内容

  • 没有找到相关文章