我已经获得了对服务器的访问权限,该服务器提供了我将下载并导入HDFS的文件列表。我目前正在使用的是使用HTTP获取并下载HTML目录列表,然后使用JSOUP并解析所有需要下载的文件的链接。一旦我有一个完整的列表,我将一个一个接一个地下载每个文件,然后将每个文件导入HDF。我不相信Flume能够阅读&解析HTML下载文件。是否有一种更简单的方法可以做我正在描述的事情?
用水槽我会做以下操作:
1)有一个进程GREP您的URL并将转储的HTML文件存储到目录
2)配置一个用客户求职者指向该目录的Spooldir源:
deserializer LINE Specify the deserializer used to parse the file into events. Defaults to parsing each line as an event. The class specified must implement EventDeserializer.Builder.
Deserializer读取HTML文件,并使用JSOUP提取HTML文件。然后将提取的位转换为所需格式的多个事件,并发送到HDFSSINK
基本上就是这样。