我们正在map-reduce上做POC来计算我们应用程序的模块使用情况。 应用程序在位于单独盒子上的 J2EE 容器上运行,Hadoop安装在单独的盒子上,我们需要将日志文件从应用程序容器盒移动到 Hadoop 盒子。 下面提到的是一些需要帮助/建议的查询。
- 任何工具/框架将日志文件从多个位置移动到HDFS? 什么是最佳实践?
- 如何运行移动文件的作业? 应该是 cron 作业或文件大小触发器移动到 HDFS?
你需要Apache Flume。Flume是一种流行的标准工具,用于将日志文件移动到Hadoop HDFS。它可以作为 cron 作业运行。