我使用spark 2.4.0与"org.apache。Bahir - spark-sql-cloudant - 2.4.0"我必须从couchDB下载所有json文件到hdfs.
val df = spark
.read
.format("org.apache.bahir.cloudant")
.load("demo")
df.persist(StorageLevel.MEMORY_AND_DISK)
df
.write
.partitionBy("year", "month", "day")
.mode("append")
.parquet("...")
总文件大小为160GB (>1300万文件)Spark作业运行5分钟后出现错误
原因:com.cloudant.client.org.lightcouch.CouchDbException: Error retriingserverresponse
增加超时时间没有帮助,但稍后会下降摆脱这种情况的方法是什么?
使用另一个端点进行查询,使用_changes对_all_docs帮助我