在云上的数据科学体验中安装BigDL



我想在云数据科学体验笔记本电脑中使用Intel BigDL。

如何安装?

如果您的笔记本电脑由DSX中的Apache Spark即服务实例支持,则安装BigDL很简单。但你必须先收集一些版本信息。

  1. 哪个Spark版本?目前,2.1是DSX支持的最新版本
    使用Python,每个服务只能安装一个Spark版本的BigDL
  2. 哪个BigDL版本?目前最新版本为0.3.0,支持Spark 2.1。
    如有疑问,请查看下载页面。Spark修复级别无关紧要

有了这些信息,您可以确定Maven存储库中所需BigDLJAR文件的URL。对于示例版本,BigDL 0.3.0和Spark 2.1,下载URL为
https://repo1.maven.org/maven2/com/intel/analytics/bigdl/bigdl-SPARK_2.1/0.3.0/bigdl-SPARK_2.1-0.3.0-jar-with-dependencies.jar

对于其他版本,请根据需要替换该URL中的0.3.0和2.1。请注意,这两个版本都会出现两次,一次出现在路径中,一次显示在文件名中。

为Python安装

您需要JAR和匹配的Python包。Python包只依赖于BigDL的版本,而不依赖于Spark版本。安装步骤可以在Python笔记本上执行:

  1. 安装JAR。

    !(export sv=2.1 bv=0.3.0 ; cd ~/data/libs/ && wget  https://repo1.maven.org/maven2/com/intel/analytics/bigdl/bigdl-SPARK_${sv}/${bv}/bigdl-SPARK_${sv}-${bv}-jar-with-dependencies.jar)
    

    在这里,Spark(sv)和BigDL(bv)的版本被定义为环境变量,因此您可以轻松地调整它们,而无需更改URL。

  2. 安装Python模块。

    !pip install bigdl==0.3.0 --no-deps | cat
    

    如果您想在Python版本之间切换笔记本,请对每个Python版本执行一次此步骤。(如果没有--no-deps,将安装有冲突版本的pyspark。)

重新启动笔记本内核后,BigDL就可以使用了。

(不是)为Scala安装

如果您按照上面为Python描述的方式安装JAR,它也可以在Scala内核中使用。

如果您想将BigDL专门用于Scala,最好不要安装JAR。相反,在笔记本的开头使用%AddJar魔术。最好在第一个代码单元中执行此操作,以避免类加载问题。

%AddJar https://repo1.maven.org/maven2/com/intel/analytics/bigdl/bigdl-SPARK_2.1/0.3.0/bigdl-SPARK_2.1-0.3.0-jar-with-dependencies.jar

通过不安装JAR,您可以在共享同一服务的不同Scala笔记本中灵活地使用不同版本的Spark和BigDL。一旦您安装了一个JAR,您很可能会遇到该JAR与使用%AddJar引入的JAR之间的冲突。

清理

如果你想安装一个不同版本的BigDL,你必须先清理。以下是检查已安装内容并将其删除的命令。从Python笔记本中执行这些命令。

  • 检查安装了什么JAR。如果输出为空,则不安装任何输出。

    !find ~/data/libs -name bigdl-*
    
  • 检查安装了哪些Python模块。如果输出为空,则不安装BigDL。

    !pip freeze | grep -i BigDL
    
  • 删除已安装的BigDL JAR。

    !find ~/data/libs -name bigdl-* -exec rm -vf {} +
    
  • 删除当前Python版本的已安装BigDL Python模块。

    !rm -rf ~/.local/lib/python${_py_version_}/site-packages/{bigdl,BigDL}*
    

    如果重新安装失败并显示"多个dist-info目录"消息,也执行:

    !rm -rf $PIP_BUILD
    

BigDL现在在DSX中得到支持。点击此处查看博客详细信息:https://medium.com/ibm-data-science-experience/using-bigdl-in-data-science-experience-for-deep-learning-on-spark-f1cf30ad6ca0?source=collection_home---4------1-------------------

最新更新