对迁移到大数据的疑问



我对hadoop有一些疑问

  1. 在cloudera发布的一个视频中,一位指导者告诉Hadoop有HDFS。每个文件都将存储为一组卡盘或块。每个块将在不同的机器上复制三次,以最大限度地减少故障点。每个映射器将处理单个 hdfs 块。

从这些逻辑中,我意识到,如果我有一个服务器有大约 100 peta 字节的日志,这些日志不像 hdfs 那样存储在传统的文件系统中。

主要疑点 1.现在,如果我想使用mapreduce技术有效地分析这些庞大的数据,那么我是否必须在运行hdfs的新服务器中传输数据,并且存储容量是旧服务器的三倍。

  1. 在另一个视频中,该视频也由cloudera发布。指导者明确提到,我们不需要将传统系统迁移到新系统,我们可以在此基础上使用 Hadoop 和 Map Reduce。这与第一点中提到的陈述没有什么矛盾。

主要疑问2:让我们假设第2点陈述是正确的。现在这怎么可能。我的意思是我们如何在没有复制块或名称节点的传统文件系统上应用 hadoop 和 map reduce。每台机器上的守护进程。

我的主要任务是促进对当前未存储在hdfs中的大量日志的快速分析。为此,我是否需要一台新服务器。

PS:我需要一些好的教程或书籍或一些文章,这些文章可以让我深入了解大数据,以便我可以开始研究它。因此,非常欢迎提出建议。

Hadoop只是一个基础设施,用于运行MapReduce风格的工作负载(用于服务器集群上的"大数据"或"分析"。

您可以使用HDFS在节点之间共享数据,然后使用Hadoop的内置工作负载管理将工作分配到存储数据的节点。这有时称为"函数传送"。

但也有可能不使用HDFS。您可以使用其他网络文件共享/分发机制。FTP(文件副本)、S3(从亚马逊云科技云访问)和各种其他集群/分布式文件系统由各种供应商/平台支持。其中一些将数据移动到正在完成工作负载的系统("数据传送")。

哪种存储策略合适、高效和高性能是一个大问题,很大程度上取决于您的基础设施和MapReduce应用程序的数据访问模式。然而,一般来说,分析工作需要大量资源,因此只有小型分析应用程序倾向于在执行其他工作的服务器("原始系统")上运行。因此,处理"大数据"确实倾向于建议使用新的服务器 - 如果不是你购买的服务器,你从AWS,RackSpace等云服务临时租用的服务器 - 以及来自生产中捕获的数据的副本/克隆("辅助存储")的数据流,而不是仍然驻留在"主存储"上的数据。

如果你刚刚开始使用小型或适度的应用,则可以直接从现有系统就地访问数据。但是,如果您有 100 PB 的日志,您将希望在专用于该任务的系统上处理这些日志。

相关内容

  • 没有找到相关文章

最新更新