在Jupyter notebook中配置和使用spark

ゝ一世哀愁。 2022-07-12 11:43 319阅读 0赞
  1. 步骤1:安装jupyter 这里安装集成环境包Anaconda
  2. 下载地址及安装方法:https://www.continuum.io/downloads
  3. 步骤2
  4. 下载spark http://spark.apache.org/
  5. 解压:tar zxvf spark-2.1.0-bin-hadoop2.7.tgz
  6. 步骤3:配置jupyter登录
  7. 产生密码:终端输入ipython
  8. In [1]: from IPython.lib import passwd
  9. In [2]: passwd()
  10. Enter password:
  11. Verify password:
  12. Out[2]: 'sha1:6402ac25a515:2755b924b8bb5bef2475f7918776197e2f972858'
  13. 配置参数:
  14. 进入/root/.jupyter/jupyter_notebook_config.py
  15. c.NotebookApp.ip = '*' #启动服务的地址,设置成 ‘*’ 可以从同一网段的其他机器访问到;
  16. c.NotebookApp.open_browser = False #启动 ipython notebook 的时候不会自动打开浏览器;
  17. c.NotebookApp.password = 'sha1:6402ac25a515:2755b924b8bb5bef2475f7918776197e2f972858' # ipython notebook的登陆密码
  18. c.NotebookApp.port = 6666 #设置访问端口 每次启动ipthon notebook端口会加1
  19. 步骤4:设置环境变量
  20. 进入 vim ~/.bashrc 或 vi ~/.bashrc 在最后添加
  21. export JAVA_HOME=/root/jdk1.8 #jdk路径
  22. export SPARK_HOME=/root/spark2.1 #spark的路径
  23. export PYSPARK_PYTHON=python3
  24. export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.10.4-src.zip // 替换对应版本的py4j
  25. export PATH="$PATH:$JAVA_HOME/bin:$SPARK_HOME/bin:$PATH"
  26. 步骤5:后台启动
  27. nohup jupyter notebook &
  28. 步骤6:访问 ip:6666
  29. 快速启动方法:
  30. 只需安装sparkanaconda
  31. 执行命令:
  32. PYSPARK_PYTHON=python3 PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook"./bin/pyspark
  33. spark2.0以下:IPYTHON=1 IPYTHON_OPTS=notebook ./spark/bin/pyspark
  34. PYSPARK_DRIVER_PYTHON=ipython3 PYSPARK_DRIVER_PYTHON_OPTS="notebook" ./bin/pyspark

发表评论

表情:
评论列表 (有 0 条评论,319人围观)

还没有评论,来说两句吧...

相关阅读