HDFS:使用Python3从HDFS读取数据以解析HDFS中的XML文件



我在HDFS中有大约1500个XML文件,每个文件大约2-3Gb。我需要编写一个python脚本来解析XML文件以执行MapReduce。然而,我面临着使用python访问HDFS中的文件的问题。

我尝试了以下脚本,但收到一个错误。

from snakebite.client import Client
def connection():
hadoop_client = Client('HDFS_hostname', 'HDFS_port', use_trash=False)
for x in hadoop_client.ls(['/']):
print(x)

以下是错误:

Traceback (most recent call last):
File "/home/ubuntu/PycharmProjects/textmining/read_data_from_HDFS.py", line 5, in <module>
from snakebite.client import Client
File "/usr/local/lib/python3.6/dist-packages/snakebite/client.py", line 1473
baseTime = min(time * (1L << retries), cap);
^
SyntaxError: invalid syntax

使用python访问HDFS文件的最佳推荐方式是什么?

pip install snakebite-py3 

这将帮助你解决这个问题。。。

我遇到了同样的问题。蛇咬伤与python 3不兼容。x u可以与python 2一起使用。

最新更新