从多个源输入数据到hadoop(HDFS)



如何使用python将多个数据源中的不同数据放入HDFS

我已经尝试了SQL文件使用pyspark(在Pycharm IDEA),它工作。

现在我需要更多的功能,允许我摄取不同的其他数据到HDFS

PySpark是非常通用的-它可以通过流/SQL读取多个输入。您需要更具体地说明您试图从哪些源加载。

然而,如果你想要一种更容易访问的方式来摄取大量数据,这就是apache-kafka明确构建的目的。如果您不喜欢编写大量代码,那么您也可以考虑apache-nifi,它可以很好地集成到Hadoop生态系统中。