我正在尝试使用Pyspark (Python + Spark)将数据存储到Accumulo中。现在,我正在使用pyaccumulo库通过使用pyFiles参数将pyaccumulo egg文件传递给SparkContext来将数据写入Accumulo。我在想是否有更好的方法来做这件事。我看过Cassandra和HBase输出格式的例子,想知道是否可以为Accumulo做类似的事情。Cassandra和HBase似乎正在使用saveAsNewAPIHadoopDataset(conf, keyConv, valueConv)函数并传递一个配置字典,一个键转换器和一个值转换器。有没有人有任何想法,什么可能是相应的值传递给saveAsNewAPIHadoopDataset()为Accumulo?
猜测一下,因为我不知道它应该如何工作,您需要像
这样的东西- AccumuloOutputFormat.ConnectorInfo.principal
- AccumuloOutputFormat.ConnectorInfo.token
- AccumuloOutputFormat.InstanceOpts.zooKeepers
- AccumuloOutputFormat.InstanceOpts.name
要获得完整的属性列表,我将运行一个普通的MapReduce示例(http://accumulo.apache.org/1.7/examples/mapred.html)并查看配置值。