Author: Tracy

Hue的简介

Hue全称Hadoop User Experience，是一个开源的Apache Hadoop UI系统，由Cloudera Desktop演化而来，最后Cloudera公司将其贡献给Apache基金会的Hadoop社区，它是基于Python Web框架Django实现的。它的强大之处在于，界面非常友好简洁，通过使用它我们可以直接在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据，例如操作HDFS上的数据，运行MapReduce Job，执行Hive的SQL语句，浏览HBase数据库等。笔者参考官方网站的文章——How to build Hue on Ubuntu写了这篇博文，来简单的介绍一下，Hue的安装和配置，以及Hue实现的几个简单案例。

继续阅读

案例介绍

平均心率检测案例。本案例以实验室之前发布的另一篇博客文章《Spark+Kafka构建实时分析Dashboard案例介绍》为基础，涉及模拟数据生成，数据预处理、消息队列发送和接收消息、数据实时处理、数据实时推送和实时展示等数据处理全流程，所涉及的各种典型操作涵盖Linux、Spark、Kafka、JAVA、MySQL、Ajax、Html、Css、Js、Maven等系统和软件的安装和使用方法。通过本案例，将有助于综合运用大数据课程知识以及各种工具软件，实现数据全流程操作。同时在此感谢张少坤、吴维奇和喻小丽等三位同学在创作本案例中的贡献。
继续阅读

使用Eclipse编写Spark应用程序（Scala+Maven）

点击这里观看厦门大学林子雨老师主讲《大数据技术原理与应用》授课视频
【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]
对Scala代码进行打包编译时，可以采用Maven，也可以采用sbt，相对而言，业界更多使用sbt。本教程介绍如何在 Ubuntu中使用 Eclipse 来开发 scala 程序（使用Maven工具），在Spark 2.1.0，scala 2.11.8 下验证通过。使用 Eclipse，我们可以直接运行代码，省去许多繁琐的命令。（相关文章：如何在 Ubuntu中使用 Eclipse 来开发 scala 程序（使用sbt工具））

继续阅读

日志采集工具Flume的安装与使用方法

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。
继续阅读

大数据案例-步骤二：Hive数据分析

返回大数据案例首页
《大数据课程实验案例：网站用户行为分析----步骤二：Hive数据分析》
开发团队：厦门大学数据库实验室联系人：林子雨老师 ziyulin@xmu.edu.cn
版权声明：版权归厦门大学数据库实验室所有，请勿用于商业用途；未经授权，其他网站请勿转载

本文介绍大数据课程实验案例“网站用户行为分析”的第二个步骤，Hive数据分析。在实践本步骤之前，请先完成该实验案例的第一个步骤大数据案例——本地数据集上传到数据仓库Hive。这里假设你已经完成了前面的第一个步骤。
继续阅读

厦大数据库实验室博客