Spark+Kafka构建实时分析Dashboard案例——步骤一:实验环境准备

返回本案例首页
《Spark+Kafka构建实时分析Dashboard案例——步骤一:实验环境准备》
开发团队:厦门大学数据库实验室 联系人:林子雨老师 ziyulin@xmu.edu.cn

版权声明:版权归厦门大学数据库实验室所有,请勿用于商业用途;未经授权,其他网站请勿转载

本教程介绍大数据课程实验案例“Spark+Kafka构建实时分析Dashboard案例”的第一个步骤,实验环境准备工作,有些软件的安装在相应的章节还会介绍。

继续阅读

Spark+Kafka构建实时分析Dashboard案例介绍

返回本案例首页
《Spark+Kafka构建实时分析Dashboard案例介绍》

开发团队:厦门大学数据库实验室 联系人:林子雨老师ziyulin@xmu.edu.cn

版权声明:版权归厦门大学数据库实验室所有,请勿用于商业用途;未经授权,其他网站请勿转载

本教程介绍大数据课程实验案例“Spark+Kafka构建实时分析Dashboard”。在本篇博客中,将要介绍本案例的总体架构,包括案例整体的运行流程以及每个过程具体执行内容。

继续阅读

Spark2.1.0入门:模型选择和超参数调整

【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!
[返回Spark教程首页]

## 模型选择和超参数调整

在机器学习中非常重要的任务就是模型选择,或者使用数据来找到具体问题的最佳的模型和参数,这个过程也叫做调试(Tuning)。调试可以在独立的估计器中完成(如逻辑斯蒂回归),也可以在包含多样算法、特征工程和其他步骤的工作流中完成。用户应该一次性调优整个工作流,而不是独立的调整PipeLine中的每个组成部分。
继续阅读

使用Intellij Idea编写Spark应用程序(Scala+SBT)


点击这里观看厦门大学林子雨老师主讲《大数据技术原理与应用》授课视频
【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!
返回Spark教程首页
对Scala代码进行打包编译时,可以采用Maven,也可以采用SBT,相对而言,业界更多使用SBT。之前有篇博客我们介绍了使用Intellij Idea编写Spark应用程序(Scala+Maven),采用的是Maven工具。今天这篇博客同样是使用Intellij Idea编写Spark应用程序,但是使用的是SBT工具。下面开始我们的教程。
继续阅读

使用Eclipse编写Spark应用程序(Scala+SBT)


点击这里观看厦门大学林子雨老师主讲《大数据技术原理与应用》授课视频
【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!
[返回Spark教程首页]

之前有篇博客介绍了使用Eclipse编写Spark应用程序,采用的是maven工具。今天这篇博客同样是使用Eclipse编写Spark应用程序,但是使用的是sbt工具。下面开始我们的教程。

继续阅读

Spark2.1.0入门:Spark GraphX 算法实例

【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!
返回Spark教程首页
GraphX 中自带一系列图算法来简化分析任务。这些算法存在于org.apache.spark.graphx.lib包中,可以被Graph通过GraphOps直接访问。本章节主要介绍GraphX中主要的三个算法。
继续阅读

Spark2.1.0入门:Spark GraphX 简介

【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!
返回Spark教程首页

GraphX是Spark用来图和分布式图计算的新组件。GraphX通过引入属性图:顶点和边均有属性的有向多重图,来扩充Spark的RDD.为了支持这种图计算,GraphX 开发了一组基础功能操作。GraphX仍在不断扩充图算法,用来简化图计算的分析任务。
本章节主要介绍GraphX的核心抽象模型---属性图,并通过实例介绍如何构造一个图。
继续阅读

Spark 2.1.0 入门:特征选取–卡方选择器

【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!
[返回Spark教程首页]

特征选择(Feature Selection)指的是在特征向量中选择出那些“优秀”的特征,组成新的、更“精简”的特征向量的过程。它在高维数据分析中十分常用,可以剔除掉“冗余”和“无关”的特征,提升学习器的性能。
继续阅读