使用Putty软件实现SSH登录到Ubuntu系统

返回《在阿里云中搭建大数据实验环境》首页
提示:本教程是一个系列文章,请务必按照本教程首页中给出的各个步骤列表,按照先后顺序一步步进行操作,本博客假设你已经顺利完成了之前的操作步骤。
假设我们在本地使用台式机或笔记本电脑,有时候,我们要在远程的云服务器ECS的Ubuntu中执行一些Shell命令来完成一些操作,如果采用阿里云网页管理控制台的方式,非常繁琐(要访问官网、登录账户、发起远程连接、进入Ubuntu系统、打开终端),因此,建议在本地电脑上,使用Putty软件实现SSH登录到远程ECS实例中的Ubuntu系统,这样做非常方便快捷。
继续阅读

为Ubuntu系统添加新的普通用户

返回《在阿里云中搭建大数据实验环境》首页
提示:本教程是一个系列文章,请务必按照本教程首页中给出的各个步骤列表,按照先后顺序一步步进行操作,本博客假设你已经顺利完成了之前的操作步骤。
在使用Ubuntu系统的过程中,一般不建议直接使用root用户,建议新建一个或多个普通用户,平时的大数据实验操作都使用普通用户登录Ubuntu系统。
购买了阿里云的云服务器ECS实例以后,就可以打开浏览器,通过网页访问阿里云官网,通过网页中的管理控制台,使用root用户来登录ECS实例中的Ubuntu系统,然后,根据前面博客介绍的方法,在Ubuntu系统中打开一个命令行终端,在终端中输入Shell命令完成新用户的创建。
继续阅读

使用VNC远程连接ECS实例中的Ubuntu系统

返回《在阿里云中搭建大数据实验环境》首页
提示:本教程是一个系列文章,请务必按照本教程首页中给出的各个步骤列表,按照先后顺序一步步进行操作,本博客假设你已经顺利完成了之前的操作步骤。
通过网页中的管理控制台来登录ECS实例中的Ubuntu系统,对于开发者而言,使用体验不是很好。建议在本地电脑使用VNC远程连接ECS实例中的Ubuntu系统,可以带来更好的体验。
继续阅读

从网页的控制台登录云服务器ECS中的Ubuntu系统

返回《在阿里云中搭建大数据实验环境》首页
提示:本教程是一个系列文章,请务必按照本教程首页中给出的各个步骤列表,按照先后顺序一步步进行操作,本博客假设你已经顺利完成了之前的操作步骤。
购买了阿里云的云服务器ECS实例以后,就可以打开浏览器,通过网页访问阿里云官网,通过网页中的管理控制台,来登录ECS实例中的Ubuntu系统。
继续阅读

购买阿里云的云服务器ECS

返回《在阿里云中搭建大数据实验环境》首页

学习大数据时,学习者都是使用台式机或者笔记本电脑开始上机实验操作。但是,大数据软件非常多,普通台式机和笔记本电脑上安装了大量的大数据软件以后,运行速度会很慢。笔者也曾经花了1000元左右购买了16GB内存条和固态盘(比磁盘快),把笔记本电脑升级了一次,增加存储空间和内存空间。但是,当笔者安装了大量大数据软件以后,就发现,在进行上机操作时,速度会越来越慢,如果要跑一些综合案例(涉及到大量软件和数据集),电脑基本跑不动。笔记想过了,就算更换笔记本电脑,实际上也解决不了问题,毕竟现在新电脑的CPU和内存,基本上和笔者现在使用的旧的笔记本电脑不会有太大差别。最终,笔者决定尝试使用云服务,也就是说,在云端购买一台“机器”(注意,实际上云端提供的机器并非我们平时所理解的物理机器,实际上是虚拟化以后的资源)。
继续阅读

在阿里云中搭建大数据实验环境

《在阿里云中搭建大数据实验环境》
作者:厦门大学计算机科学系教师 林子雨 博士/助理教授
E-mail: ziyulin@xmu.edu.cn
个人主页:http://www.cs.xmu.edu.cn/linziyu

云计算是和自来水一样的商业模式。有了自来水,我们可以不用自己挖井,就可以快速、便捷、廉价地获得水资源。而有了云计算,我们就可以不用自己建机房、买设备、维护系统,就可以快速、便捷、廉价地获得IT资源(CPU、内存、带宽、存储和应用系统等)。正如人类社会已经全面从挖井取水过渡到自来水阶段一样,人类社会最终在IT资源获取方式方面,也会全面过渡到云计算阶段。大数据与云计算相辅相成,密不可分。云计算为大数据提供了廉价的底层基础设施,大数据为云计算提供了用武之地。因此,作为大数据学习者,应该学会如何“漫步云端”,在云中搭建起大数据系统,开展大数据实践。本文中,林子雨老师亲自购买了阿里云服务器ECS,亲自体验在云服务器ECS实例中安装大数据环境,测试各种大数据软件和代码,并把经验整理成博客资料,方便读者参考阅读。如果你也有兴趣,就让我们一起开启“云中之旅”吧。

(特别声明:本文纯属技术分享,笔者和阿里云不存在任何合作关系,选择阿里云,仅仅因为它是国内排名第一、全球排名第三的云计算服务商。学生身份还可以获得免费试用期)

第1步:购买阿里云的云服务器ECS(访问

第2步:从网页的控制台登录云服务器ECS中的Ubuntu系统(访问

第3步:为Ubuntu系统添加新的普通用户(访问

第4步:使用Putty软件实现SSH登录到Ubuntu系统(访问

第5步:使用VNC远程连接ECS实例中的Ubuntu系统(访问

第6步:使用FTP软件向ECS实例中的Ubuntu系统上传和下载文件(访问

第7步:在ECS实例的Ubuntu系统中安装Java(访问

第8步:在ECS实例的Ubuntu系统中安装Hadoop(访问

第9步:在ECS实例的Ubuntu系统中安装Scala(访问

第10步:在ECS实例的Ubuntu系统中安装Spark(访问

第11步:在ECS实例的Ubuntu系统中安装编译打包工具sbt(访问

第12步:在ECS实例的Ubuntu系统中安装编译打包工具Maven(访问

第13步:在ECS实例的Ubuntu系统中安装IntelliJ IDEA和Scala插件(访问

第14步:在ECS实例的Ubuntu系统中安装Scala IDE for Eclipse(访问

第15步:在ECS实例的Ubuntu系统中安装HBase(访问

第16步:在ECS实例的Ubuntu系统中安装MySQL5.7(访问

第17步:为ECS中的Ubuntu14.04安装中文语言支持(访问

谈谈我在云端搭建大数据环境的感受

在阿里云搭建大数据实验环境感受分享。从2018年3月下旬开始的十几天时间,大部分时间都在加班加点在阿里云中安装大数据环境,花了1650元购买了3年的服务器使用权限,想充分利用起来。
(1)为什么我要在云中构建大数据环境?
主要原因还是在于,我发现,在自己的单机上构建大数据环境,随着大数据软件的增加和数据的增加,我的笔记本电脑根本跑不动。怎么不用台式机?台式机不方便带到教室里面去教学。我这两年给我的笔记本电脑升级了两次,总计花了1000多元,用了更快的固态盘250GB,用了16GB内存,采用在Windows系统中安装Linux虚拟机,然后在Linux虚拟机上安装大数据软件。但是,速度越来越慢,现在我要开始跑一些大型的大数据案例,根本跑不动。如果不用虚拟机,直接用双系统,电脑开机启动时直接进入Linux系统,速度会快一些,但是,进入Linux以后,很难做教学,因为教学环节经常需要使用Windows系统。所以,使用笔记本电脑做大数据教学,越来越无法满足跑各种大数据案例的需求。所以,我开始考虑向云中转移。我选择了国内排名第一,全球排名第三的云计算服务商——阿里云。
(2)在阿里云中构建大数据环境和本地一样吗?
我原来觉得是一样的,所以,就按照我原来在本地电脑安装的教程,去阿里云安装大数据软件。结果发现,有一些地方,在本地安装可以成功,在阿里云端,就是失败。有些失败的问题,到网络上到处搜索,都找不到现成的解决方案,没有办法,只能凭借自己的猜测,一个个进行蛮力测试,瞎猫碰死耗子,碰对了,问题就解决。所以,在阿里云中调试成功一款软件,有时候还是非常耗费的。我知道,其他学习者一样会遇到我踩过的坑,所以,我一边调试,一边截图,写成了指南,希望对其他学习者有所帮助。我知道,目前,很多学习者还不会使用云端,不过,以后,一些学习者肯定会产生和我一样的需求,到那个时候,相信我的指南能够帮学习者节省不少时间。

(3)在云端安装大数据软件带来的便利性
我目前已经把常用的大数据软件都在云端安装了。只要有浏览器,我可以随时随地访问云端的大数据平台。我在家里,在学校实验室,只要任何可以上网的地方,我都可以通过VNC或者Putty远程连接到阿里云的大数据平台,一些实验,我在实验室做到一半(比如程序到一半,还没有结束,就到下班时间了),我可以直接把实验室内部的本地电脑关闭,不会影响远程云端大数据平台的继续运行,然后,我回到家里,可以继续用家里电脑连接到云端,继续调试云端的大数据程序。这种方便、快速的体验,还是令人愉悦的。

(4)使用云端的大数据实验环境,速度如何?
我是在阿里云的云服务器ECS实例中构建了Ubuntu系统,并安装了全套大数据软件。通过过去十几天的运行,速度还是比较快的,要比我自己的笔记本电脑快很多。我在自己的笔记本电脑上通过VNC连接远程的大数据平台,就像在使用本地的平台一样,不会明显感觉到是远程的平台。为什么说不是明显呢?因为,如果说和本地感觉一模一样,是不可能的。主要是,画面和流畅度不会像本地那么棒。不过,我个人对这种远程效果的体验,已经很满意了,比我自己用本地电脑虚拟机的体验,好太多了。

Hue的安装及配置

Hue的简介

Hue全称Hadoop User Experience,是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现的。它的强大之处在于,界面非常友好简洁,通过使用它我们可以直接在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job,执行Hive的SQL语句,浏览HBase数据库等。笔者参考官方网站的文章——How to build Hue on Ubuntu写了这篇博文,来简单的介绍一下,Hue的安装和配置,以及Hue实现的几个简单案例。

继续阅读

Kettle的安装和使用

Kettle简介

Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。
Kettle是“Kettle E.T.T.L. Envirnonment“只取首字母的缩写,这意味着它被设计用来帮助你实现你的 ETTL 需要:抽取、转换、装入和加载数据;翻译成中文名称应该叫水壶,名字的起源是开发者希望把各种数据放到一个壶里然后以一种指定的格式流出。
Spoon 是一个图形用户界面,它允许你运行转换或者任务,其中转换是用 Pan 工具来运行,任务是用 Kitchen 来运行。Pan 是一个数据转换引擎,它可以执行很多功能,例如:从不同的数据源读取、操作和写入数据。Kitchen 是一个可以运行利用 XML 或数据资源库描述的任务。通常任务是在规定的时间间隔内用批处理的模式自动运行。
继续阅读

用Node.js搭建一个简易的Web端文件词频统计动态网页

本教程将教导大家如何用Node.js语言搭建一个Web端文件词频统计动态网页。

教程需求

在网页中指定词频文件路径,利用网页点击提交,提交后程序自动运行WordCount的MapReduce程序的JAR包,对HDFS中的文件进行词频统计,并把统计结果显示在网页上。
继续阅读