厦大数据库实验室博客

交互式Python爬虫分析实例

先前的文章展示了爬虫分析，并使用pyecharts画图。这篇文章在先前文章的基础上，增加了在线控制模块。总体的做法就是，把爬虫分析功能放在后台，在后台开启一个服务端，接收客户端的命令后，开启爬虫分析，然后将最后的结果展示在客户端。

淘宝双11数据分析与预测课程案例—步骤四:利用Spark预测回头客行为（python版）

《淘宝双11数据分析与预测课程案例—步骤四:利用Spark预测回头客行为（python版）》

开发团队：厦门大学数据库实验室联系人：林子雨老师ziyulin@xmu.edu.cn

本教程介绍大数据课程实验案例“淘宝双11数据分析与预测”的第五个步骤，利用Spark预测回头客。在实践本步骤之前，请先完成该实验案例的第一个步骤——本地数据集上传到数据仓库Hive，第二个步骤——Hive数据分析，和第三个步骤——将数据从Hive导入到MySQL，这里假设你已经完成了前面的这四个步骤。
继续阅读

厦门租房信息分析展示（pycharm+python爬虫+pyspark+pyecharts）

【版权声明】版权所有，严禁转载，严禁用于商业用途，侵权必究。
作者：厦门大学计算机系2016级研究生魏亮
指导老师：厦门大学计算机科学系数据库实验室林子雨博士/副教授
相关教材：林子雨、郑海山、赖永炫编著《Spark编程基础（Python版）》（访问教材官网）
相关案例：基于Python语言的Spark数据处理分析案例集锦（PySpark）

本篇博客将实现一个系列程序，从厦门小鱼网爬取租房租金信息，然后利用spark的python版本进行简单分析，并利用echarts的python版本展示分析结果，此外还会简单介绍pycharm的工程建立，所以本篇将分为四个部分。
继续阅读

使用Pycharm开发Spark应用程序（以WordCount为例）

本篇博客将给大家介绍怎么在PyCharm上编写运行WordCount程序。
继续阅读

采用Node.js+Express+Jade实现用户注册登录功能

Node.js是一个JavaScript运行环境，发布于2009年5月，由Ryan Dahl开发，实质是对Chrome V8引擎进行了封装。V8引擎执行Javascript的速度非常快，性能非常好。 Node.js是一个基于Chrome JavaScript运行时建立的平台，用于方便地搭建响应速度快、易于扩展的网络应用。Node.js使用事件驱动、非阻塞I/O模型，具备轻量和高效的特点，非常适合在分布式设备上运行数据密集型的实时应用。请参考另一篇博客完成Node.js的安装。这里假设已经完成Node.js的安装。
继续阅读

使用Node.js连接MySQL数据库

假设已经在MySQL数据库中创建了一个名称为“test”的数据库，这个数据库中有一个student表，这个表有sno和sname两个字段。现在要创建Node.js应用服务器，查询MySQL数据库student表的信息并显示到网页上。
继续阅读

Flume_Kafka_SparkStreaming实现词频统计

任务描述

配置Kafka和Flume，把Flume Source类别设置为netcat，绑定到localhost的33333端口，通过“telnet localhost 33333”命令向Flume Source发送消息，然后，让Flume把消息发送给Kafka，并让Kafa发送消息到Spark Streaming，Spark Streaming组件收到各种单词消息后，对单词进行词频统计，在屏幕上打印出每个单词出现了几次。
继续阅读