Apache-Spark:从历史记录服务器导出数据



一个简单的问题,如何从历史记录服务器导出数据?我只想导出包含所有应用程序常规信息的主页。

应用

ID、应用名称、已开始、已完成、持续时间、Spark 用户、上次更新时间

我的目标是创建一个具有相同结构的 CSV。

问候!

历史服务器有一个 REST API,类似于 Spark UI 的 REST API。

试试这个网址: http://localhost:18080/api/v1/applications .也许您必须在安装中采用服务器和端口。REST API 将返回一个 Json 文档。

或者你可以使用像Data Miner这样的网络爬虫并跳过API地狱

最新更新