使用Pyspark将数据存储到Accumulo中

我正在尝试使用Pyspark (Python + Spark)将数据存储到Accumulo中。现在，我正在使用pyaccumulo库通过使用pyFiles参数将pyaccumulo egg文件传递给SparkContext来将数据写入Accumulo。我在想是否有更好的方法来做这件事。我看过Cassandra和HBase输出格式的例子，想知道是否可以为Accumulo做类似的事情。Cassandra和HBase似乎正在使用saveAsNewAPIHadoopDataset(conf, keyConv, valueConv)函数并传递一个配置字典，一个键转换器和一个值转换器。有没有人有任何想法，什么可能是相应的值传递给saveAsNewAPIHadoopDataset()为Accumulo?

猜测一下，因为我不知道它应该如何工作，您需要像

这样的东西

AccumuloOutputFormat.ConnectorInfo.principal
AccumuloOutputFormat.ConnectorInfo.token
AccumuloOutputFormat.InstanceOpts.zooKeepers
AccumuloOutputFormat.InstanceOpts.name

要获得完整的属性列表，我将运行一个普通的MapReduce示例(http://accumulo.apache.org/1.7/examples/mapred.html)并查看配置值。

相关内容

最新更新

热门标签：