Hadoop with Hive



我们想开发一个简单的Java EE Web应用程序,使用Hadoop进行日志文件分析。以下是开发应用程序的方法。但是我们无法通过这种方法。

  1. 日志文件将使用 sftp/ftp 从客户端计算机上传到 Hadoop 服务器。
  2. 调用 Hadoop 作业以获取日志文件并将日志文件处理到 HDFS 文件系统中。
  3. 在处理日志文件时,内容将存储到 HIVE 数据库中。
  4. 使用来自客户端 Web 应用程序的 HIVE JDBC 连接搜索日志内容

我们浏览了这么多样本以完全填充一些步骤。但是我们没有任何具体的样本不可用。

请建议上述方法是否正确,并获取用 Java 开发的示例应用程序的链接。

我会指出几件事:
a) 您需要合并日志文件或以其他方式注意不要有太多日志文件。考虑Flume(http://flume.apache.org/),它旨在接受来自各种来源的日志并将它们放入HDFS中。
b) 如果你使用 ftp - 你将需要一些脚本来从 FTP 获取数据并放入 HDFS。
c) 我看到的主要问题是 - 作为客户端 Web 请求的结果运行 Hive 作业。Hive 请求不是交互式的 - 至少需要几十秒,甚至可能更多。
我也会有不同的并发请求 - 您可能无法并行运行多个

请求

据我说,你可以做一件事:

1)与其接受来自各种来源的日志并将它们放入HDFS,不如放入一个数据库,例如SQL Server,然后您可以使用Sqoop将数据导入Hive(或HDFS)。

2)这将减少您编写各种作业以将数据引入HDFS的工作量。

3)一旦数据进入Hive,你可以做任何你想做的事情。

最新更新