我想使用Spark流并从文件系统(例如HDFS)提供输入。我将如何做
例如
,当使用JavaStreamingContext
时,有适当的方法方法,例如 textFileStream()
读取任何文本文件,fileStream()
从与Hadoop兼容的文件系统读取文件。将监视作为 API 参数传递的目录是否有更改。如果您要将任何文件移动到那里,它将由流应用程序根据批处理间隔拾取。
请查看我在github上的简单示例,以从Twitter或文件系统读取数据。
希望这会有所帮助。