>我正在尝试从服务器加载 xls/xlsx 文件
使用此代码https://github.com/crealytics/spark-excel
SparkConf sparkConf = new SparkConf();
SparkContext sparkContext = null;
sparkContext = new SparkContext("local", "234", sparkConf);
SparkSession sparkSession =
SparkSession.builder().sparkContext(sparkContext).getOrCreate();
SQLContext sqlContext = sparkSession.sqlContext().newSession();
Dataset<Row> dframe = sqlContext.read().format("com.crealytics.spark.excel").option("timestampFormat", "yyyy-mmm-dd HH:mm:ss").option("dataAddress", "'My Sheet'!A1").option("useHeader", "true").option("treatEmptyValuesAsNulls", "false").option("inferSchema", "true")
.load("/home/test/myfile/sample.xlsx"); // local path
此代码非常适合本地文件
"/home/test/myfile/sample.xlsx"
如何读取具有以下路径的服务器上的文件
"http://10.0.0.1:8080/serverFiles/test.xlsx"
我用替换代码上面的服务器网址并收到此错误:
Exception in thread "main" java.io.IOException: No FileSystem for scheme: http
at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2586)
at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2593)
火花可以直接从服务器URL读取xlsx/xls文件吗?[不适用于 CSV]
不能在 Spark 上下文中直接使用 HTTP
路径。
参考这个所谓的问题