大数据

点击这里观看厦门大学林子雨老师主讲《大数据技术原理与应用》授课视频
【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
返回Spark教程首页
对Scala代码进行打包编译时，可以采用Maven，也可以采用SBT，相对而言，业界更多使用SBT。之前有篇博客我们介绍了使用Intellij Idea编写Spark应用程序(Scala+Maven)，采用的是Maven工具。今天这篇博客同样是使用Intellij Idea编写Spark应用程序，但是使用的是SBT工具。下面开始我们的教程。
继续阅读

使用Eclipse编写Spark应用程序（Scala+SBT）

点击这里观看厦门大学林子雨老师主讲《大数据技术原理与应用》授课视频
【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

之前有篇博客介绍了使用Eclipse编写Spark应用程序，采用的是maven工具。今天这篇博客同样是使用Eclipse编写Spark应用程序，但是使用的是sbt工具。下面开始我们的教程。

继续阅读

Spark2.1.0入门：Spark GraphX 算法实例

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
返回Spark教程首页
GraphX 中自带一系列图算法来简化分析任务。这些算法存在于org.apache.spark.graphx.lib包中，可以被Graph通过GraphOps直接访问。本章节主要介绍GraphX中主要的三个算法。
继续阅读

Spark2.1.0入门：Spark GraphX 图操作

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
返回Spark教程首页
在介绍完Spark GraphX的属性图模型、简单的属性展示操作后，本章节介绍更多有关Spark GraphX的常用图操作。
继续阅读

Spark2.1.0入门：Spark GraphX 简介

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
返回Spark教程首页

GraphX是Spark用来图和分布式图计算的新组件。GraphX通过引入属性图：顶点和边均有属性的有向多重图，来扩充Spark的RDD.为了支持这种图计算，GraphX 开发了一组基础功能操作。GraphX仍在不断扩充图算法，用来简化图计算的分析任务。
本章节主要介绍GraphX的核心抽象模型---属性图，并通过实例介绍如何构造一个图。
继续阅读

Spark2.1.0入门：图计算简介

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

在实际应用中，存在许多图计算问题，如最短路径、集群、网页排名、最小切割、连通分支等。图计算算法的性能直接关系到应用问题解决的高效性，尤其对于大型图（如社交网络和网络图）而言，更是如此。

继续阅读

Spark2.1.0入门：逻辑斯蒂回归分类器

[返回Spark教程首页]

逻辑斯蒂回归

方法简介

逻辑斯蒂回归（logistic regression）是统计学习中的经典分类方法，属于对数线性模型。logistic回归的因变量可以是二分类的，也可以是多分类的。

继续阅读

Spark2.1.0入门：DStream输出操作

子雨大数据之Spark入门
【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

在Spark应用中，外部系统经常需要使用到Spark DStream处理后的数据，因此，需要采用输出操作把DStream的数据输出到数据库或者文件系统中。
继续阅读

Spark2.1.0入门：DStream转换操作

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！
[返回Spark教程首页]

DStream转换操作包括无状态转换和有状态转换。
无状态转换：每个批次的处理不依赖于之前批次的数据。
有状态转换：当前批次的处理需要使用之前批次的数据或者中间结果。有状态转换包括基于滑动窗口的转换和追踪状态变化的转换(updateStateByKey)。
继续阅读

厦大数据库实验室博客

大数据

Spark大数据之基本数据处理

使用Intellij Idea编写Spark应用程序（Scala+SBT）

使用Eclipse编写Spark应用程序（Scala+SBT）

Spark2.1.0入门：Spark GraphX 算法实例

Spark2.1.0入门：Spark GraphX 图操作

Spark2.1.0入门：Spark GraphX 简介

Spark2.1.0入门：图计算简介

Spark2.1.0入门：逻辑斯蒂回归分类器

逻辑斯蒂回归

方法简介

Spark2.1.0入门：DStream输出操作

Spark2.1.0入门：DStream转换操作