如何使用来自文件系统输入的 Spark 流



我想使用Spark流并从文件系统(例如HDFS)提供输入。我将如何做

例如

,当使用JavaStreamingContext时,有适当的方法方法,例如 textFileStream()读取任何文本文件,fileStream()从与Hadoop兼容的文件系统读取文件。将监视作为 API 参数传递的目录是否有更改。如果您要将任何文件移动到那里,它将由流应用程序根据批处理间隔拾取。

请查看我在github上的简单示例,以从Twitter或文件系统读取数据。

希望这会有所帮助。

最新更新