如何使用 Spark 处理非结构化文本文件

我希望使用Spark RDD处理文本文件，其中包含如下数据：

----------------------------*-----------------------
state:xx             sub:z    |Basic info
company:abc        rate:123      |
----------------------------*------------------------
Date: 12-03-2019

我希望数据采用以下格式：

State:XX
Sub:z
Company:abc
rate:123
Date:12-03-2019

当我尝试使用data1=data.ReplaceAll('-',"")函数删除特殊字符"-"时，它正在删除 - 即使从日期也删除，即12032019，但日期应该是 12-03-2019，而且我不知道如何将sub:z ,company:abc andrate:123移动到新行。请帮忙

没有提供更多详细信息，以下是我的建议：

只需删除以-开头的行，您可能会得到这样的东西

state:xx sub:z |Basic info
company:abc rate:123 |
Date: 12-03-2019

然后删除数据|

state:xx sub:z
company:abc rate:123
Date: 12-03-2019

将(空格(替换为Date:
不确定'Date: '后面是否有空白
如果是这样，您可以将该'Date:'替换为 CC_10

state:xx
sub:z
company:abc
rate:123
Date:12-03-2019

希望这会有所帮助

相关内容

最新更新

热门标签：