提前感谢您花时间阅读本文,并为我糟糕的英语感到抱歉。
我正在尝试使用Spark流进行实时数据处理。我在HDP(Hortonworks Data Platform)中安装了Spark,对于我的流程,我需要安装一个用于JSON解析的scala库。我在互联网上读到了很多关于这方面的东西,但这只是一个简单的Spark Cluster,而不是像HDP和CDH这样的解决方案,我试图调整这个解决方案,但我做不到,我找不到任何scala文件来安装它。有人知道解决方案或技巧吗?感谢
要在齐柏林飞船中加载Spark的依赖项,您需要创建一个新的单元格并使用以下内容:
%dep
// it's a good idea to do a reset first, but not required
z.reset()
// the following line will load directly from the Maven online repo
z.load("org.apache.spark:spark-streaming-karka_2.10:1.6.1")
关于Zeppelin加载依赖项的其他详细信息,请点击此处:https://zeppelin.apache.org/docs/latest/interpreter/spark.html#3-通过dep解释器进行动态依赖加载
有一点很重要,那就是依赖项加载必须是你在笔记本上运行的第一个单元格,如果不是,它会给你一条错误消息。要绕过此问题,请单击"解释器"选项卡,然后单击"Spark解释器"上的"重新启动",然后返回到您的笔记本并使用%dep 运行单元格