使用IntelliJ IDEA和Python开发WordCount程序

大数据学习路线图

IntelliJ IDEA(简称“IDEA”),是使用Java语言开发的集成开发环境,是被业界公认为最好的Java开发工具之一,尤其在智能代码助手、代码自动提示、重构、J2EE支持、各类版本工具(git、svn、github等)、JUnit、CVS整合、代码分析、创新的GUI设计等方面,具有非常好的特性。
本文将详细讲解IDEA的安装、Python插件的安装以及使用IDEA开发Python程序的方法。

下载和安装IDEA

IDEA分为社区版(Community Edition)和商业版(Ultimate Edition),社区版包含的功能比较有限,无法满足本案例的开发需求,因此,需要安装商业版。访问IDEA官网(https://www.jetbrains.com/idea/)下载IDEA商业版安装包ideaIU-2017.3.5.tar.gz,或者也可以直接到教材官网的“下载专区”的“软件”目录下,下载安装文件ideaIU-2017.3.5.tar.gz,保存到本地,这里假设保存到“~/Downloads”目录下。
登录Linux系统(本案例全部采用用户名hadoop登录Linux系统),打开一个Linux终端,执行如下命令进行IDEA的安装:

cd ~  #进入用户主目录
sudo tar -zxvf /home/hadoop/download/ideaIU-2017.3.5.tar.gz -C /usr/local  #解压文件
cd /usr/local
sudo mv ./idea-IU-173.4674.33 ./idea   #重命名,方便操作
sudo chown -R hadoop ./idea   #为当前Linux用户hadoop赋予针对idea目录的权限

安装Python插件

在IDEA中开发和调试Python程序,需要安装Python插件。
启动进入IDEA,打开菜单“File->Settings”,进入设置界面(如图1所示),点击界面左侧的“Plugins”选项,然后,在顶部的搜索框中输入“python”,再点击下面出现的链接文字“Search in repositories”。

然后,在搜索结果页面中(如图2所示),选中左侧栏目中的“Python”,就会在右侧界面中出现Python的安装按钮,点击安装按钮就可以完成Python插件的安装。

安装成功以后,如图3所示,点击“Restart IntelliJ IDEA”,重新启动IDEA。

使用IDEA开发WordCount程序

这里以一个词频统计程序为例,介绍如何使用IDEA开发Python程序。
在第1次启动IDEA时会出现如图4所示的欢迎界面,点击界面中的“Create New Project”,打开一个新建项目对话框,开始创建一个新项目。如果已经启动进入了IDEA开发界面,也可以通过菜单“File->New->Project”打开一个新建项目对话框。

打开的新建项目对话框如图5所示。在界面左侧区域点击“Python”,然后,在“Project SDK”右侧的下拉列表中选择一个Python版本,比如Python3.4.3,然后点击“Next”按钮。

在弹出的界面中(如图6所示),点击“Next”按钮。

在弹出的界面中(如图7所示)设置项目名称,在“Project Name”右边的文本框中输入“WordCount2”,然后,点击“Finish”按钮。

在项目界面中(如图8所示),在项目名称“WordCount2”上右键单击,在弹出的菜单中选择“New”,再在弹出的菜单中选择“Python File”。

在新建文件界面中,输入文件名称“WordCount”,点击“OK”按钮。

在代码文件WordCount.py中输入如下内容:

#-*- coding:utf8-*-
from pyspark import SparkConf, SparkContext

conf = SparkConf().setAppName("WordCount").setMaster("local")
sc = SparkContext(conf=conf)
inputFile =  "file:///home/linziyu/word.txt"
textFile = sc.textFile(inputFile)
wordCount = textFile.flatMap(lambda line : line.split(" ")).map(lambda word : (word, 1)).reduceByKey(lambda a, b : a + b)
wordCount.foreach(print)

在代码窗口内(如图10所示),右键单击,在弹出的菜单中选择“Run WordCount”,就可以开始运行代码。

运行结束后,如果运行成功,如图11所示,在运行结果区域,会出现“Process finished with exit code 0”。