大数据

用Node.js搭建一个简易的Web端文件词频统计动态网页

本教程将教导大家如何用Node.js语言搭建一个Web端文件词频统计动态网页。

教程需求

在网页中指定词频文件路径,利用网页点击提交,提交后程序自动运行WordCount的MapReduce程序的JAR包,对HDFS中的文件进行词频统计,并把统计结果显示在网页上。
继续阅读

HIVE-分区表详解以及实例

本文转自“博客园”,林子雨老师收藏到厦门大学数据库实验室博客中,原文链接地址是https://www.cnblogs.com/kouryoushine/p/7801924.html
HIVE中的分区表是什么,我们先看操作,然后再来体会。
继续阅读

在Eclipse中创建Dynamic Web Project

在学习大数据综合案例时,需要使用网页来呈现数据挖掘结果,因此,需要在Ubuntu中搭建Tomcat服务器,提供网页服务。同时,需要在Eclipse中建立网页项目Dynamic Web Project。Eclipse默认是不包含这个Web插件的,无法创建Dynamic Web Project,因此,需要额外安装相关插件,才能顺利创建Dynamic Web Project。本指南将引导读者一步步完成该过程。
继续阅读

在Ubuntu16.04中安装Tomcat8

Tomcat 服务器是一个免费的开放源代码的Web 应用服务器,属于轻量级应用服务器,在中小型系统和并发访问用户不是很多的场合下被普遍使用,是开发和调试JSP 程序的首选。对于一个初学者来说,可以这样认为,当在一台机器上配置好Apache 服务器,可利用它响应HTML(标准通用标记语言下的一个应用)页面的访问请求。
继续阅读

Spark 2.1.0 入门:KMeans聚类算法(Python版)

【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!

返回Spark教程首页
推荐纸质教材:林子雨、郑海山、赖永炫编著《Spark编程基础(Python版)》

KMeans 是一个迭代求解的聚类算法,其属于 划分(Partitioning) 型的聚类方法,即首先创建K个划分,然后迭代地将样本从一个划分转移到另一个划分来改善最终聚类的质量。
继续阅读

Spark 2.1.0入门:决策树分类器(Python版)

【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!
[返回Spark教程首页]
推荐纸质教材:林子雨、郑海山、赖永炫编著《Spark编程基础(Python版)》

一、方法简介

​ 决策树(decision tree)是一种基本的分类与回归方法,这里主要介绍用于分类的决策树。决策树模式呈树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。学习时利用训练数据,根据损失函数最小化的原则建立决策树模型;预测时,对新的数据,利用决策树模型进行分类。
继续阅读

Spark2.1.0入门:逻辑斯蒂回归分类器(Python版)

【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!

[返回Spark教程首页]
推荐纸质教材:林子雨、郑海山、赖永炫编著《Spark编程基础(Python版)》

逻辑斯蒂回归

方法简介

​ 逻辑斯蒂回归(logistic regression)是统计学习中的经典分类方法,属于对数线性模型。logistic回归的因变量可以是二分类的,也可以是多分类的。

继续阅读