使用Python访问Hadoop



我是数据工程领域的新手,目前正在学习Hadoop文件系统及其用途。我想从我的python脚本中执行一些Hadoop命令,我可以运行这些命令,这样所有的hdfs命令都可以按顺序执行。我想做的工作是:

  1. 将文件从本地复制到hdfs
  2. 将文件从hdfs下载到本地
  3. 读取存储在hdfs中的各种文件,如text、avro、csv和parquet文件

我希望所有这些任务都能从python脚本中执行,而不是从终端键入相应的命令。一定要帮我,请告诉我是否存在可以执行此操作的库或模块。

Hadoop版本为3.2.1,python版本为3.8。

谢谢!

我强烈建议您考虑使用Pyspark。(Python表示大数据(它本机可与HDFS和上述文件格式配合使用。(它通常是一个大数据工具。(
Python(通常(是数据工具,不能很好地处理HDFS中的文件大小。

我并没有认为python是一个糟糕的选择,只是表示它的目标数据配置文件是适合1台计算机内存的数据。

最新更新