从远程服务器目录列表中下载文件，并导入到HDFS中

我已经获得了对服务器的访问权限，该服务器提供了我将下载并导入HDFS的文件列表。我目前正在使用的是使用HTTP获取并下载HTML目录列表，然后使用JSOUP并解析所有需要下载的文件的链接。一旦我有一个完整的列表，我将一个一个接一个地下载每个文件，然后将每个文件导入HDF。我不相信Flume能够阅读＆amp;解析HTML下载文件。是否有一种更简单的方法可以做我正在描述的事情？

用水槽我会做以下操作：

1）有一个进程GREP您的URL并将转储的HTML文件存储到目录

2）配置一个用客户求职者指向该目录的Spooldir源：

deserializer    LINE    Specify the deserializer used to parse the file into events. Defaults to parsing each line as an event. The class specified must implement EventDeserializer.Builder.

Deserializer读取HTML文件，并使用JSOUP提取HTML文件。然后将提取的位转换为所需格式的多个事件，并发送到HDFSSINK

基本上就是这样。

相关内容

最新更新

热门标签：