我在MySql中有一个表,其中包含大约24000000条记录。我需要一种方法来导入这些数据到MapR数据库表与多列族。我最初选择Sqoop作为导入数据的工具,但后来发现我不能使用Sqoop直接导入数据,因为Sqoop目前还不支持多列族导入。我已经使用MySql数据库中的Sqoop填充了MapR FS中的数据。我选择将这些数据从MapR FS导入到具有3列家族的MapR DB表中?对于批量导入,我有两个选择:
- ImportTSV工具:这可能需要源数据为TSV格式。但是我使用Sqoop从MySql导入MapR FS的数据似乎是CSV格式的。这种方法的标准解决方案是什么?
- 编写自定义Map Reduce程序,将MapR FS中的数据转换为HFile并加载到MapR DB中。
我只是想确保只有这两个选项可用于加载数据。考虑到这样的需求在任何系统中都是非常基本的需求,这似乎有点限制。如果自定义Map Reduce是可行的方法,那么一个示例或工作示例将非常有帮助。
使用HBaseStorageHandler创建指向MapRDB的Hive表。您可以使用sqoop来导入hive表。
如果您已经下载了数据MapRFS。使用hive load命令加载数据到MapRDB