我想在云数据科学体验笔记本电脑中使用Intel BigDL。
如何安装?
如果您的笔记本电脑由DSX中的Apache Spark即服务实例支持,则安装BigDL很简单。但你必须先收集一些版本信息。
- 哪个Spark版本?目前,2.1是DSX支持的最新版本
使用Python,每个服务只能安装一个Spark版本的BigDL - 哪个BigDL版本?目前最新版本为0.3.0,支持Spark 2.1。
如有疑问,请查看下载页面。Spark修复级别无关紧要
有了这些信息,您可以确定Maven存储库中所需BigDLJAR文件的URL。对于示例版本,BigDL 0.3.0和Spark 2.1,下载URL为
https://repo1.maven.org/maven2/com/intel/analytics/bigdl/bigdl-SPARK_2.1/0.3.0/bigdl-SPARK_2.1-0.3.0-jar-with-dependencies.jar
对于其他版本,请根据需要替换该URL中的0.3.0和2.1。请注意,这两个版本都会出现两次,一次出现在路径中,一次显示在文件名中。
为Python安装
您需要JAR和匹配的Python包。Python包只依赖于BigDL的版本,而不依赖于Spark版本。安装步骤可以在Python笔记本上执行:
-
安装JAR。
!(export sv=2.1 bv=0.3.0 ; cd ~/data/libs/ && wget https://repo1.maven.org/maven2/com/intel/analytics/bigdl/bigdl-SPARK_${sv}/${bv}/bigdl-SPARK_${sv}-${bv}-jar-with-dependencies.jar)
在这里,Spark(
sv
)和BigDL(bv
)的版本被定义为环境变量,因此您可以轻松地调整它们,而无需更改URL。 -
安装Python模块。
!pip install bigdl==0.3.0 --no-deps | cat
如果您想在Python版本之间切换笔记本,请对每个Python版本执行一次此步骤。(如果没有
--no-deps
,将安装有冲突版本的pyspark。)
重新启动笔记本内核后,BigDL就可以使用了。
(不是)为Scala安装
如果您按照上面为Python描述的方式安装JAR,它也可以在Scala内核中使用。
如果您想将BigDL专门用于Scala,最好不要安装JAR。相反,在笔记本的开头使用%AddJar
魔术。最好在第一个代码单元中执行此操作,以避免类加载问题。
%AddJar https://repo1.maven.org/maven2/com/intel/analytics/bigdl/bigdl-SPARK_2.1/0.3.0/bigdl-SPARK_2.1-0.3.0-jar-with-dependencies.jar
通过不安装JAR,您可以在共享同一服务的不同Scala笔记本中灵活地使用不同版本的Spark和BigDL。一旦您安装了一个JAR,您很可能会遇到该JAR与使用%AddJar
引入的JAR之间的冲突。
清理
如果你想安装一个不同版本的BigDL,你必须先清理。以下是检查已安装内容并将其删除的命令。从Python笔记本中执行这些命令。
检查安装了什么JAR。如果输出为空,则不安装任何输出。
!find ~/data/libs -name bigdl-*
检查安装了哪些Python模块。如果输出为空,则不安装BigDL。
!pip freeze | grep -i BigDL
删除已安装的BigDL JAR。
!find ~/data/libs -name bigdl-* -exec rm -vf {} +
删除当前Python版本的已安装BigDL Python模块。
!rm -rf ~/.local/lib/python${_py_version_}/site-packages/{bigdl,BigDL}*
如果重新安装失败并显示"多个dist-info目录"消息,也执行:
!rm -rf $PIP_BUILD
BigDL现在在DSX中得到支持。点击此处查看博客详细信息:https://medium.com/ibm-data-science-experience/using-bigdl-in-data-science-experience-for-deep-learning-on-spark-f1cf30ad6ca0?source=collection_home---4------1-------------------