厦大数据库实验室博客 | 总结、分享、收获 - 第46页

Spark入门：构建一个机器学习工作流

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

使用Docker搭建Hadoop分布式集群

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

Hadoop 2.7分布式集群环境搭建已经分享了如何在本地搭建Hadoop集群；这篇博客分析下如何在Docker上搭建Hadoop集群；首先，我们需要在Ubuntu上安装Docker;

Spark入门：分类与回归 – spark.mllib

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

Spark入门：逻辑斯蒂回归的分类器

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

方法简介

逻辑斯蒂回归（logistic regression）是统计学习中的经典分类方法，属于对数线性模型。logistic回归的因变量可以是二分类的，也可以是多分类的。
继续阅读

在集群上运行Spark应用程序

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]
Spark应用程序在集群中运行时，需要借助于集群管理器（包括本地集群管理器、YARN、Mesos）来为其实现资源管理调度服务，实现对集群中各个机器的访问（可以参考前面章节的内容：Spark集群部署模式）。这里通过简单的示例介绍其中两种：独立集群管理器和Hadoop Yarn集群管理器。通过介绍，我们可以了解到如何在这两种集群管理器上运行Spark应用程序。本篇博客的上一篇博客内容是：Spark集群环境搭建
 继续阅读

Spark入门：基本的统计工具（2） – spark.mllib

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

Spark入门：基本的统计工具（1） – spark.mllib

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

Spark2.0入门：DataFrame与RDD的区别

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

DataFrame的推出，让Spark具备了处理大规模结构化数据的能力，不仅比原有的RDD转化方式更加简单易用，而且获得了更高的计算性能。Spark能够轻松实现从MySQL到DataFrame的转化，并且支持SQL查询。
继续阅读

Spark2.0入门 Spark SQL简介

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

Spark SQL是Spark生态系统中非常重要的组件，其前身为Shark。Shark是Spark上的数据仓库，最初设计成与Hive兼容，但是该项目于2014年开始停止开发，转向Spark SQL。Spark SQL全面继承了Shark，并进行了优化。
继续阅读

Spark2.0入门：连接Hive读写数据（DataFrame）

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

Hive是基于Hadoop的数据仓库（要想了解更多数据仓库Hive的知识以及如何安装Hive，可以参考厦门大学数据库实验室的Hive授课视频、Hive安装指南）。本节内容介绍Spark如何连接Hive并读写数据。