在 hadoop hdfs 中查看数据格式的最佳方式是什么



将近50GB的CSV文件加载到Hadoop集群中,我想查看一些用于识别列的示例记录。

我试过使用

hadoop fs -cat employees.csv | head -n 10

我的问题是

  1. 这是查看数据的正确命令吗?
  2. head -n 10 - 它将加载 50 GB 数据,它会过滤前 10 行? 它是如何工作的?
  3. 还有其他更好的方法吗?

这取决于您的版本。

对于较旧的Hadoop(<3.1.0(版本:

hadoop fs -cat employees.csv | head -n 10

对于较新的 (>= 3.1.0( Hadoop 版本

 hadoop fs -head employees.csv