子雨大数据之Spark入门教程(Scala版)

子雨大数据之Spark入门
扫一扫访问本博客
【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!版权所有,侵权必究!

Spark最初诞生于美国加州大学伯克利分校(UC Berkeley)的AMP实验室,是一个可应用于大规模数据处理的快速、通用引擎。2013年,Spark加入Apache孵化器项目后,开始获得迅猛的发展,如今已成为Apache软件基金会最重要的三大分布式计算系统开源项目之一(即Hadoop、Spark、Storm)。Spark最初的设计目标是使数据分析更快——不仅运行速度快,也要能快速、容易地编写程序。为了使程序运行更快,Spark提供了内存计算,减少了迭代计算时的IO开销;而为了使编写程序更为容易,Spark使用简练、优雅的Scala语言编写,基于Scala提供了交互式的编程体验。虽然,Hadoop已成为大数据的事实标准,但其MapReduce分布式计算模型仍存在诸多缺陷,而Spark不仅具备Hadoop MapReduce所具有的优点,且解决了Hadoop MapReduce的缺陷。Spark正以其结构一体化、功能多元化的优势逐渐成为当今大数据领域最热门的大数据计算平台。

继续阅读

ubuntu 64位解决Hadoop Native Library(编译hadoop-src)

Hadoop下载页面提供两种下载文件包,一个是已经编译好的(32位)Hadoop压缩包,另一个是Hadoop-src源代码压缩包。一般我们直接下载Hadoop压缩包直接使用即可。但是在Ubuntu 64位上成功运行Hadoop或执行Hadoop Shell命令,都会出现以下提醒:

WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

这是因为官网提供的Hadoop压缩包是32位,而我们使用Linux系统是64位,这就导致系统本地库不一致的提醒。当然这个提醒,并不会影响Hadoop的正常使用。要解决这个方法,只需要下载Hadoop官网提供Hadoop-src源代码压缩包在本地64位系统上重新编译即可。
继续阅读

Linux-expect详解

Expect是一个用来处理交互的命令。借助Expect,我们可以将交互过程写在一个脚本上,使之自动化完成。在使用Shell实现一键安装包的时候,用到expect来实现自动化交互的功能。例如,我们在实现ssh localhost登陆的时候,让终端自动输入yes并回车。
继续阅读

一键安装补充

一键安装的ssh登入障碍,可以重新生产配对钥匙

Agent admitted failure to sign using the key

解決方式 使用 ssh-add 指令将私钥 加进来 (根据个人的密匙命名不同更改 id_rsa)
#ssh-add ~/.ssh/id_rsa

再通过ssh 主机名 就可以实现无密码登录了。

Linux-Shell学习指南

在Linux系统中,shell仍然是一个非常灵活的工具。Shell不仅仅是命令的收集,而且是一门非常棒的编程语言。您可以通过使用shell使大量的任务自动化,特别是在部署一键安装开发环境的情况.
继续阅读

Ubuntu下开启MongoDB用户权限

【版权声明:本指南为厦门大学林子雨编著的《大数据技术原理与应用》教材配套学习资料,版权所有,转载请注明出处,请勿用于商业用途】

本教程详细指导大家如何开启并设置用户权限。MongoDB默认是没有开启用户权限的,如果直接在公网服务器上如此搭建MongoDB,那么所有人都可以直接访问并修改数据库数据了。 其实MongoDB本身有非常详细的安全配置准则,显然开发者也是想到了,然而他是将安全的任务推给用户去解决,这本身的策略就是偏向易用性的,对于安全性,则得靠边站了。
继续阅读

Ubuntu下MongoDB安装与使用教程

【版权声明:本指南为厦门大学林子雨编著的《大数据技术原理与应用》教材配套学习资料,版权所有,转载请注明出处,请勿用于商业用途】

本指南介绍了MongoDB,并详细指引读者在Ubuntu下MongoDB的安装和使用。目前第一版教材上没有收纳本章内容,可以直接使用本教程进行学习。本教程在Ubuntu14.04下测试通过。
继续阅读

Linux Shell中的管道命令

Shell中管道命令操作符为"|",仅能处理前面的一个指令传出的正确输出信息,也就是标准输出的信息(没法处理错误信息)。然后传递给下一个命令,作为标准的输入。

继续阅读