【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!
返回Spark教程首页
推荐纸质教材:林子雨、郑海山、赖永炫编著《Spark编程基础(Python版)》
虽然可以直接pyspark或python3 shell进行入门学习编程,但是真正进行代码编写的时候,更多的是借助IDE工具进行编程。常见的Python IDE工具有Pycharm,Visual Studio Code(简称vscode), Atom等。本篇教程将介绍如何在vscode配置Python3环境。
安装vscode
进入Visual Studio Code官方网站,点击如下图红框位置下载vscode安装包(code_*****.deb)
下载完成后,执行如下命令
cd ~/下载
sudo dpkg -i code_*.deb
如果发现错误“dpkg:错误:另外一个进程已经为 dpkg 状态数据库 加锁”,那么请重启你的系统,然后再执行sudo dpkg -i code_*.deb命令
安装好了之后,只要在shell中输入如下命令,即可快捷打开vscode软件
code
配置python3环境
安装python扩展包
打开vscode,点击左侧扩展,在扩展栏的搜索框,搜索“Python”,点击安装Python扩展即可。如下图:
设置使用python版本
Python扩展包安装好了之后,在当前软件是vscode的情况下,点击顶部菜单栏选择“文件”-->"首选项"-->"设置",当然你可以使用组合键“Ctrl+,”,打开用户设置界面
执行python代码
执行如下命令,创建一个项目文件夹
cd ~
mkdir -p ./Projects/Test
code ~/Projects/Test
即可用vscode打开一个文件夹,我们可以在vscode的资源管理器中管理当前项目,并通过右键创建一个test.py文件
选中test.py,输入如下代码:
from pyspark import SparkContext
sc = SparkContext( 'local', 'test')
textFile = sc.textFile("file:///usr/local/spark/mycode/wordcount/word.txt")
wordCount = textFile.flatMap(lambda line: line.split(" ")).map(lambda word: (word,1)).reduceByKey(lambda a, b : a + b)
wordCount.foreach(print)
输入完成后,右键选择“Run Python File in Terminal”,vscode即可弹出执行结果。如下图: