将近50GB的CSV文件加载到Hadoop集群中,我想查看一些用于识别列的示例记录。
我试过使用
hadoop fs -cat employees.csv | head -n 10
我的问题是
- 这是查看数据的正确命令吗?
-
head -n 10
- 它将加载 50 GB 数据,它会过滤前 10 行? 它是如何工作的? - 还有其他更好的方法吗?
这取决于您的版本。
对于较旧的Hadoop(<3.1.0(版本:
hadoop fs -cat employees.csv | head -n 10
对于较新的 (>= 3.1.0( Hadoop 版本
hadoop fs -head employees.csv