使用开发工具Visual Studio Code 编写Spark应用程序(Python版)

大数据学习路线图

【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!
返回Spark教程首页
推荐纸质教材:林子雨、郑海山、赖永炫编著《Spark编程基础(Python版)》

虽然可以直接pyspark或python3 shell进行入门学习编程,但是真正进行代码编写的时候,更多的是借助IDE工具进行编程。常见的Python IDE工具有Pycharm,Visual Studio Code(简称vscode), Atom等。本篇教程将介绍如何在vscode配置Python3环境。

安装vscode

进入Visual Studio Code官方网站,点击如下图红框位置下载vscode安装包(code_*****.deb)

下载完成后,执行如下命令

cd ~/下载
sudo dpkg -i code_*.deb

如果发现错误“dpkg:错误:另外一个进程已经为 dpkg 状态数据库 加锁”,那么请重启你的系统,然后再执行sudo dpkg -i code_*.deb命令

安装好了之后,只要在shell中输入如下命令,即可快捷打开vscode软件

code

配置python3环境

安装python扩展包

打开vscode,点击左侧扩展,在扩展栏的搜索框,搜索“Python”,点击安装Python扩展即可。如下图:

设置使用python版本

Python扩展包安装好了之后,在当前软件是vscode的情况下,点击顶部菜单栏选择“文件”-->"首选项"-->"设置",当然你可以使用组合键“Ctrl+,”,打开用户设置界面

执行python代码

执行如下命令,创建一个项目文件夹

cd ~
mkdir -p ./Projects/Test
code ~/Projects/Test

即可用vscode打开一个文件夹,我们可以在vscode的资源管理器中管理当前项目,并通过右键创建一个test.py文件

选中test.py,输入如下代码:

from pyspark import SparkContext
sc = SparkContext( 'local', 'test')
textFile = sc.textFile("file:///usr/local/spark/mycode/wordcount/word.txt")
wordCount = textFile.flatMap(lambda line: line.split(" ")).map(lambda word: (word,1)).reduceByKey(lambda a, b : a + b)
wordCount.foreach(print)

输入完成后,右键选择“Run Python File in Terminal”,vscode即可弹出执行结果。如下图: