我正在使用apapche spark。我想访问多个json文件从spark的日期基础上。我怎么能选择多个文件,即我想提供以1034结尾的文件范围。以1434.json结尾的文件。我正在尝试这个。
DataFrame df = sql.read().json("s3://..../..../.....-.....[1034*-1434*]");
但是我得到以下错误
at java.util.regex.Pattern.error(Pattern.java:1924)
at java.util.regex.Pattern.range(Pattern.java:2594)
at java.util.regex.Pattern.clazz(Pattern.java:2507)
at java.util.regex.Pattern.sequence(Pattern.java:2030)
at java.util.regex.Pattern.expr(Pattern.java:1964)
at java.util.regex.Pattern.compile(Pattern.java:1665)
at java.util.regex.Pattern.<init>(Pattern.java:1337)
at java.util.regex.Pattern.compile(Pattern.java:1022)
at org.apache.hadoop.fs.GlobPattern.set(GlobPattern.java:156)
at org.apache.hadoop.fs.GlobPattern.<init>(GlobPattern.java:42)
at org.apache.hadoop.fs.GlobFilter.init(GlobFilter.java:67)
请指定一个出口
你可以这样读。
sqlContext.read().json("s3n://bucket/filepath/*.json")
也可以在文件路径中使用wildcards
。
:
sqlContext.read().json("s3n://*/*/*-*[1034*-1434*]")