使用Python访问Hadoop

我是数据工程领域的新手，目前正在学习Hadoop文件系统及其用途。我想从我的python脚本中执行一些Hadoop命令，我可以运行这些命令，这样所有的hdfs命令都可以按顺序执行。我想做的工作是：

我希望所有这些任务都能从python脚本中执行，而不是从终端键入相应的命令。一定要帮我，请告诉我是否存在可以执行此操作的库或模块。

Hadoop版本为3.2.1，python版本为3.8。

谢谢！

我强烈建议您考虑使用Pyspark。(Python表示大数据(它本机可与HDFS和上述文件格式配合使用。(它通常是一个大数据工具。(
Python(通常(是小数据工具，不能很好地处理HDFS中的文件大小。

我并没有认为python是一个糟糕的选择，只是表示它的目标数据配置文件是适合1台计算机内存的数据。

相关内容