如何捕获HDFS上的文件信息



我想捕获HDFS中每个文件的某些信息,例如:名称,创建日期,修改和最后访问。我想过使用Python OS模块来做,但我不确定这是否可能以及如何做到这一点。我认为另一种选择是使用HDFS模块本身,但是互联网上关于它的信息很少,这使得它更加困难。

有人知道我是怎么做的吗?

HDFS不是计算机可以理解的普通文件系统。因此,os模块将无法对存储在HDFS中的文件做任何操作。

您可以尝试snakebite,这是一个纯Python客户端HDFS。这里有一个关于如何使用snakebite在HDFS中列出文件的示例。