在谷歌数据流中读取的二进制文件



我需要读取谷歌数据流中的二进制文件, 我只需要读取文件并将每个 64 字节解析为一条记录,并在数据流中每个 64 字节二进制文件的每个字节中应用一些逻辑。

我在 Spark 中尝试过同样的事情,代码 smape 如下:

def main(args: Array[String]): Unit = {
val spark = SparkSession
.builder()
.appName("RecordSplit")
.master("local[*]")
.getOrCreate()
val df = spark.sparkContext.binaryRecords("< binary-file-path>", 64)
val Table = df.map(rec => {
val c1= (convertHexToString(rec(0)))
val c2= convertBinaryToInt16(rec, 48)
val c3= rec(59)
val c4= convertHexToString(rec(50)) match {
case str =>
if (str.startsWith("c"))
2020 + str.substring(1).toInt
else if (str.startsWith("b"))
2010 + str.substring(1).toInt
else if (str.startsWith("b"))
2000 + str.substring(1).toInt
case _ => 1920
}

我会推荐以下内容:

  • 如果你不限于python/scala,OffsetBasedSource(FileBasedSource是一个子类(可以满足你的需求,因为它使用偏移量来定义起始和结束位置。

  • TikaIO可以处理元数据,但是它可以根据文档读取二进制数据。

  • 示例数据流意见分析包含要从任意字节位置读取的信息。

  • 还有其他文档可用于创建自定义读取实现。您可能需要考虑查看这些 Beam 示例,以获取有关如何实现自定义源代码的指导,例如此 python 示例。

另一种方法是在管道(内存中(之外制作 64 字节的数组,然后从内存创建 PCollection,请记住,文档建议将其用于单元测试。

最新更新