我正在考虑在我们的Hadoop群集上使用Hive,然后使用Presto对Hadoop中存储的数据进行一些分析,但我仍然对某些事情感到困惑:
- 文件存储在Hadoop(某种文件管理器) 中
- Hive需要表来存储Hadoop(数据管理器)的数据
- Hadoop和Hive都将数据分开存储,还是Hive只是使用Hadoop的文件?(就硬盘空间等方面吗?) ->那么,Hive在桌子中的Hadoop导入数据,然后将Hadoop独自离开,或者我必须如何看待?
- 可以在没有蜂巢的情况下使用Presto,直接在Hadoop上?
事先感谢您回答我的问题:)
首先:文件存储在Hadoop分布式文件系统中( HDFS )。那是您所说的数据经理吗?
实际上可以在HDF或表中使用"常规"文件中的"常规"文件,这些文件再次使用"常规"文件,并在特殊数据存储中存储了其他元数据(称为仓库)。
关于Presto-它具有对Hive Metastore的内置支持,但是您也可以为任何数据源编写自己的连接器插件。
请在此处和有关连接器插件的更多信息阅读有关Hive Connector配置的更多信息。