如何使用 Spark 处理非结构化文本文件



我希望使用Spark RDD处理文本文件,其中包含如下数据:

----------------------------*-----------------------
state:xx             sub:z    |Basic info
company:abc        rate:123      |
----------------------------*------------------------
Date: 12-03-2019

我希望数据采用以下格式:

State:XX
Sub:z
Company:abc
rate:123
Date:12-03-2019

当我尝试使用data1=data.ReplaceAll('-',"")函数删除特殊字符"-"时,它正在删除 - 即使从日期也删除,即12032019,但日期应该是 12-03-2019,而且我不知道如何将sub:z ,company:abc andrate:123移动到新行。请帮忙

没有提供更多详细信息,以下是我的建议:

  1. 只需删除以-开头的行,您可能会得到这样的东西
state:xx sub:z |Basic info
company:abc rate:123 |
Date: 12-03-2019
  1. 然后删除数据|
state:xx sub:z
company:abc rate:123
Date: 12-03-2019
  1. (空格(替换为Date:

    不确定'Date: '后面是否有空白

    如果是这样,您可以将该'Date:'替换为 CC_10

state:xx
sub:z
company:abc
rate:123
Date:12-03-2019

希望这会有所帮助

最新更新