Hadoop with Hive

我们想开发一个简单的Java EE Web应用程序，使用Hadoop进行日志文件分析。以下是开发应用程序的方法。但是我们无法通过这种方法。

日志文件将使用 sftp/ftp 从客户端计算机上传到 Hadoop 服务器。
调用 Hadoop 作业以获取日志文件并将日志文件处理到 HDFS 文件系统中。
在处理日志文件时，内容将存储到 HIVE 数据库中。
使用来自客户端 Web 应用程序的 HIVE JDBC 连接搜索日志内容

我们浏览了这么多样本以完全填充一些步骤。但是我们没有任何具体的样本不可用。

请建议上述方法是否正确，并获取用 Java 开发的示例应用程序的链接。

我会指出几件事：
a）您需要合并日志文件或以其他方式注意不要有太多日志文件。考虑Flume（http://flume.apache.org/），它旨在接受来自各种来源的日志并将它们放入HDFS中。
b）如果你使用 ftp - 你将需要一些脚本来从 FTP 获取数据并放入 HDFS。
c）我看到的主要问题是 - 作为客户端 Web 请求的结果运行 Hive 作业。Hive 请求不是交互式的 - 至少需要几十秒，甚至可能更多。
我也会有不同的并发请求 - 您可能无法并行运行多个

请求

据我说，你可以做一件事：

1）与其接受来自各种来源的日志并将它们放入HDFS，不如放入一个数据库，例如SQL Server，然后您可以使用Sqoop将数据导入Hive（或HDFS）。

2）这将减少您编写各种作业以将数据引入HDFS的工作量。

3）一旦数据进入Hive，你可以做任何你想做的事情。

相关内容

最新更新

热门标签：