我希望使用Spark RDD
处理文本文件,其中包含如下数据:
----------------------------*-----------------------
state:xx sub:z |Basic info
company:abc rate:123 |
----------------------------*------------------------
Date: 12-03-2019
我希望数据采用以下格式:
State:XX
Sub:z
Company:abc
rate:123
Date:12-03-2019
当我尝试使用data1=data.ReplaceAll('-',"")
函数删除特殊字符"-"时,它正在删除 - 即使从日期也删除,即12032019,但日期应该是 12-03-2019,而且我不知道如何将sub:z ,company:abc andrate:123
移动到新行。请帮忙
没有提供更多详细信息,以下是我的建议:
- 只需删除以
-
开头的行,您可能会得到这样的东西
state:xx sub:z |Basic info
company:abc rate:123 |
Date: 12-03-2019
- 然后删除数据
|
state:xx sub:z
company:abc rate:123
Date: 12-03-2019
- 将
(空格(替换为
Date:
不确定
'Date: '
后面是否有空白如果是这样,您可以将该
'Date:'
替换为 CC_10
state:xx
sub:z
company:abc
rate:123
Date:12-03-2019
希望这会有所帮助