是否有办法在短时间内实现写入数据?
将其拆分为几个作业,每个作业提取数据的不同部分并写入相应的csv文件(map),然后在完成后合并csv文件(reduce)。
如果可以,在不同的机器上运行作业,或者在一台(多核)机器上运行作业,并将输出写入不同的磁盘。
您需要查看数据并使用行键将其分解为不同的部分。使用行键设置扫描的STARTROW和STOPROW属性。
现在您有了单独的扫描,您可以在不同的机器上并行运行它们。
推出伪代码:
OutputStream stream = new FileOutputStream("C:homeyoucsvfilesmycsvfile1.csv");
BufferedWriter wtrBuffer = new BufferedWriter(new OutputStreamWriter(stream, "UTF-8"));
CSVWriter writer = new CSVWriter(wtrBuffer, ',');
HTable myTable = null;
try {
myTable = new HTable(myConfig, "myTable");
} catch (IOException e) {
e.printStackTrace();
}
for (Result result : scanner) {
if (result != null){
// Just printing the keys because I don't know anything about your data
writer.writeNext(Bytes.toString(result.getRow()));
}
try {
myTable.close();
} catch (IOException e) {
e.printStackTrace();
}
try{
}catch(Exception ex){
ex.printStackTrace();
}
finally {
System.out.println("Writing to disk...");
writer.flush();
writer.close();
stream.flush();
stream.close();
System.out.println("Writing to disk...Complete");
}
此代码使用opencsv: http://opencsv.sourceforge.net
确保每个扫描过程使用不同的文件名。您可以让每个进程写入共享文件夹/网络存储,或者写入本地然后复制到网络存储。当所有的进程完成后,你可以复制所有的csv文件(mycsvfile1…n.v csv)到一个目录,如果你还没有这样做的话。
然后你可以将它们合并到一个文件中。
copy *.csv all.csv
然后打开all.csv,你的文件应该有1000万行。
您可以在HBASE表的基础上创建一个简单的外部HIVE表,然后在HIVE上使用select/export命令将数据保存为CSV格式。
步骤1:
hive> CREATE TABLE mapr_table_1(key int, value string)
> STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
> WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf1:val")
> TBLPROPERTIES ("hbase.table.name" = "/user/mapr/xyz");
步骤2:从Hive
获取数据到CSVINSERT OVERWRITE LOCAL DIRECTORY '/path/to/hive/csv' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' SELECT * FROM hivetablename limit 1000000;
您可以使用apache drill
将输出重定向到CSV文件。Apache drill自带mapr软件。
sqlline -u "jdbc:drill:" --outputformat=csv --run=fileWithSQL.sql > Output_CSV_file.csv
将从habse读取的查询放到fileWithSQL.sql
文件中,并运行上述命令。