我试图在S3/AWS&将输出写入具有相同文件名的新位置
我在S3上使用以下使用,这是编写First Cat Command到HDFS输出的流量输出的正确方法吗?
hadoop fs -cat s3://analytics/LZ/2017/03/03/test_20170303-000000.tar.gz | zgrep -a -E '*word_1*|*word_2*|word_3|word_4' | hadoop fs -put - s3://prod/project/test/test_20170303-000000.tar.gz
- 鉴于您正在使用Hadoop,为什么不在集群中运行代码?扫描.gzip文件中的字符串很常见,尽管我不知道.tar文件。
- 我会亲自使用
-copyToLocal
和-copyFromLocal
命令将其复制到本地FS并在此处工作。诸如-cat
之类的问题是在Hadoop客户端代码上记录了很多东西,因此管道可能会捡起太多的外部crufft,