Spark如何加速批量加载到JanusGraph?



我需要从其他存储中加载大量顶点和边到带有Cassandra后端的JanusGraph。我已经阅读了有关批量加载和Spark配置(https://docs.janusgraph.org/advanced-topics/bulk-loading/和 https://docs.janusgraph.org/advanced-topics/hadoop/(的信息。

很清楚如何配置JanusGraph用于Spark的使用,但我仍然不确定如何使用Spark,以及Spark是否可以帮助加快插入图形的速度。

请给出一些使用Hadoop MapReduce或Spark的用例和代码示例,以加速将数据批量加载到Janusgraph(首选Java或Python(。欢迎任何帮助!

我最近从事POC项目,使用Apache Spark将数据批量加载到JanusGraph中。我们在使用 Spark 加载数据时获得了相当不错的性能。下面的文章中提供了设置和示例代码。

https://medium.com/@nitinpoddar/bulk-loading-data-into-janusgraph-ace7d146af05

https://medium.com/@nitinpoddar/bulk-loading-data-into-janusgraph-part-2-ca946db26582

或者,你可以编写一个Kafka消费者应用程序,将数据从Kafka加载到JanusGraph。并行度将限制为应用程序从中读取数据的源/输入主题的分区数。应用程序将是单线程的,但您可以根据输入主题的数量扩展应用程序。应用程序的每个实例都可以打开一个连接并使用事务写入JanusGraph。您可以使用一定的批大小对事务进行批处理以分散负载。

相关内容

  • 没有找到相关文章

最新更新