将Delta Lake软件包添加到AWS电子病历笔记本中



增量jardelta-core_2.11-0.6.1.jar被添加到EMR主节点"SPARK_ HOME/jars";目录然而,从EMR笔记本调用Delta API,我得到了以下错误:

# Though Notebook comes with default SPARK instant so following line I didn't execute 
# spark = SparkSession.builder.appName("MyApp") 
#    .config("spark.jars.packages", "io.delta:delta-core_2.11:0.6.1") 
#    .getOrCreate()
from delta.tables import * # ModuleNotFoundError: No module named 'delta'

CLI命令pyspark --packages "io.delta:delta-core_2.11:0.6.1"在主节点中运行良好。我可以在CLI模式下访问Delta API。

有什么方法可以让我直接在Notebook中使用Delta API吗。请提出建议。

包含DeltaTable类的tables.py文件可以在github上的delta repo中找到。你可以在这里找到它-https://github.com/delta-io/delta/tree/master/python/delta

您可以克隆repo(记住选择正确的分支(,也可以复制文件并上传到Jupyter。无论哪种方式,它都需要作为依赖项添加,所以你需要像这样的东西

import sys
sys.path.append('mnt/jupyterhome/<username>/<folder_containing_tables.py>)

希望这能让你振作起来!

最新更新