Hue的安装及配置

Hue的简介

Hue全称Hadoop User Experience,是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现的。它的强大之处在于,界面非常友好简洁,通过使用它我们可以直接在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job,执行Hive的SQL语句,浏览HBase数据库等。笔者参考官方网站的文章——How to build Hue on Ubuntu写了这篇博文,来简单的介绍一下,Hue的安装和配置,以及Hue实现的几个简单案例。

继续阅读

Kettle的安装和使用

Kettle简介

Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。
Kettle是“Kettle E.T.T.L. Envirnonment“只取首字母的缩写,这意味着它被设计用来帮助你实现你的 ETTL 需要:抽取、转换、装入和加载数据;翻译成中文名称应该叫水壶,名字的起源是开发者希望把各种数据放到一个壶里然后以一种指定的格式流出。
Spoon 是一个图形用户界面,它允许你运行转换或者任务,其中转换是用 Pan 工具来运行,任务是用 Kitchen 来运行。Pan 是一个数据转换引擎,它可以执行很多功能,例如:从不同的数据源读取、操作和写入数据。Kitchen 是一个可以运行利用 XML 或数据资源库描述的任务。通常任务是在规定的时间间隔内用批处理的模式自动运行。
继续阅读

HIVE-分区表详解以及实例

本文转自“博客园”,林子雨老师收藏到厦门大学数据库实验室博客中,原文链接地址是https://www.cnblogs.com/kouryoushine/p/7801924.html
HIVE中的分区表是什么,我们先看操作,然后再来体会。
继续阅读

在Eclipse中创建Dynamic Web Project

在学习大数据综合案例时,需要使用网页来呈现数据挖掘结果,因此,需要在Ubuntu中搭建Tomcat服务器,提供网页服务。同时,需要在Eclipse中建立网页项目Dynamic Web Project。Eclipse默认是不包含这个Web插件的,无法创建Dynamic Web Project,因此,需要额外安装相关插件,才能顺利创建Dynamic Web Project。本指南将引导读者一步步完成该过程。
继续阅读

在Ubuntu16.04中安装Tomcat8

Tomcat 服务器是一个免费的开放源代码的Web 应用服务器,属于轻量级应用服务器,在中小型系统和并发访问用户不是很多的场合下被普遍使用,是开发和调试JSP 程序的首选。对于一个初学者来说,可以这样认为,当在一台机器上配置好Apache 服务器,可利用它响应HTML(标准通用标记语言下的一个应用)页面的访问请求。
继续阅读