- 将火花驱动程序节点设置为 hdfs 主节点和spark Worker节点作为 hdfs 从属节点。
或
- 仅使用Spark Worker节点来设置A hdfs 群集。 hdfs 主节点包含在这些工作节点中
P.S:我知道 hdfs 和Spark是单独的部分,但是当给出有限数量的节点时,可以在Spark上测试应用程序性能的首选方法吗?因此,从本质上讲,我们应该避免在火花驱动节点上花费I/O吗?
hdfs cluster 应该可以从驱动程序节点访问,因此第一个选项更有意义。
用于性能测试的设置主要取决于预期的应用程序工作负载,节点上可用的内存和其他参数,但是如果在驱动程序上运行的应用程序的一部分没有进行任何重大处理,则将名称节点放置可能是有意义的那里。