使用Spark和CouchDB的大数据



我使用spark 2.4.0与"org.apache。Bahir - spark-sql-cloudant - 2.4.0"我必须从couchDB下载所有json文件到hdfs.

val df = spark
.read
.format("org.apache.bahir.cloudant")
.load("demo")
df.persist(StorageLevel.MEMORY_AND_DISK)
df
.write
.partitionBy("year", "month", "day")
.mode("append")
.parquet("...")

总文件大小为160GB (>1300万文件)Spark作业运行5分钟后出现错误

原因:com.cloudant.client.org.lightcouch.CouchDbException: Error retriingserverresponse

增加超时时间没有帮助,但稍后会下降摆脱这种情况的方法是什么?

使用另一个端点进行查询,使用_changes_all_docs帮助我

最新更新