厦大数据库实验室博客 | 总结、分享、收获

第28期大数据师资培训班报名主页（Hadoop+Spark+实战案例班，暑假，泉州，2026年8月6日-13日）

第28期大数据师资培训班报名主页（Hadoop+Spark+实战案例班，暑假，泉州，2026年8月6日-13日）
访问培训班报名主页

继续阅读

厦门大学第27期全国高校“AI编程与智能体开发”教师研修班开始报名（2026年7月20日-26日，厦门大学）

访问培训班报名主页

继续阅读

林子雨编著《数字素养通识教程——大数据与人工智能时代的计算机通识教育》

林子雨编著《数字素养通识教程——大数据与人工智能时代的计算机通识教育》（教材官网）
适用于全校通识课、计算机通识课、人工智能通识课、数字素养通识课

继续阅读

2024年最新教材林子雨编著《数据库系统原理（微课版）》

访问林子雨编著《数据库系统原理（微课版）》教材官网
国内高校知名大数据教师——厦门大学计算机系林子雨副教授编著
系统讲解传统的关系数据库和新兴的NoSQL数据库，全书共14章，内容包括数据库概述、关系数据库、关系数据库标准语言SQL、关系数据库编程、关系数据库安全和保护、关系数据库的规范化理论、关系数据库设计、NoSQL数据库、分布式数据HBase、文档数据库MongoDB、键值数据库Redis、云数据库、数据仓库和数据湖、SQL与大数据。在每个章节的习题解析部分，设计了单选题、多选题、填空题、判断题、简答题和应用题等题型，内容涵盖了理论教材中的核心知识点，并给出了参考答案。在涉及上机实验的相关章节，设计了与理论教材相关的上机实验操作练习，并给出了参考答案。
访问林子雨编著《数据库系统原理（微课版）》教材官网

大数据软件安装和基础编程实践指南（2023年7月版）

版权声明：版权所有，请勿转载。
博客：在VMWare中安装Linux虚拟机
作者：厦门大学计算机系林子雨副教授
E-mail: ziyulin@xmu.edu.cn
摘要：本博客介绍如何在Linux系统中安装各种大数据软件，包括Hadoop、HBase、Spark、Hive、Flink等，以及如何进行编程。本博客内容与林子雨编著《大数据技术原理与应用（第4版）》（访问教材官网）教材配套。

继续阅读

本站所有重要博客索引（可以快速找到你想要阅读的文章）

本站提供了大量大数据学习博客，为了方便读者找到自己感兴趣的文章，特地制作了本索引。

继续阅读

基于Scala语言的Spark数据处理分析案例集锦

【版权声明】版权所有，严禁转载，严禁用于商业用途，侵权必究。
基于Scala语言的Spark数据处理分析案例集锦
案例制作：厦门大学数据库实验室
指导老师：厦门大学信息学院计算机系数据库实验室林子雨博士/副教授 E-mail: ziyulin@xmu.edu.cn
相关教材：林子雨、赖永炫、陶继平编著《Spark编程基础（Scala版，第2版）》（访问教材官网）
相关案例：基于Python语言的Spark数据处理分析案例集锦（PySpark）

(1)基于泰坦尼克号生还数据的Spark数据处理分析
 (2)基于美剧《权力的游戏》剧集数据的Spark数据处理分析
 (3)基于Covid-19传播数据的Spark数据处理分析
 (4)基于DOTA2 Matches数据集的Spark数据处理分析
 (5)基于音乐数据的Spark数据处理与分析
 (6)基于咖啡连锁店的Spark数据处理分析
 (7)基于Spark的气象监测数据分析
 (8)基于Spark的厦门市市民球场处理与分析
 (9)基于Spark的Google Play应用商店数据分析
 (10)基于Spark的淘宝数据分析
 (11)基于Spark的电信客户流失分析
 (12)基于Spark的NBA球员数据分析

基于Python语言的Spark数据处理分析案例集锦（PySpark）

子雨大数据之Spark入门教程（Scala版）

子雨大数据之Spark入门
扫一扫访问本博客
【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！版权所有，侵权必究！

Spark最初诞生于美国加州大学伯克利分校（UC Berkeley）的AMP实验室，是一个可应用于大规模数据处理的快速、通用引擎。2013年，Spark加入Apache孵化器项目后，开始获得迅猛的发展，如今已成为Apache软件基金会最重要的三大分布式计算系统开源项目之一（即Hadoop、Spark、Storm）。Spark最初的设计目标是使数据分析更快——不仅运行速度快，也要能快速、容易地编写程序。为了使程序运行更快，Spark提供了内存计算，减少了迭代计算时的IO开销；而为了使编写程序更为容易，Spark使用简练、优雅的Scala语言编写，基于Scala提供了交互式的编程体验。虽然，Hadoop已成为大数据的事实标准，但其MapReduce分布式计算模型仍存在诸多缺陷，而Spark不仅具备Hadoop MapReduce所具有的优点，且解决了Hadoop MapReduce的缺陷。Spark正以其结构一体化、功能多元化的优势逐渐成为当今大数据领域最热门的大数据计算平台。

继续阅读

第8章智能体开发框架LangGraph-代码和提示词-林子雨编著《AI编程与智能体开发》

林子雨编著《AI编程与智能体开发》（访问教材官网）

继续阅读

第7章智能体开发框架LangChain-代码和提示词-林子雨编著《AI编程与智能体开发》

林子雨编著《AI编程与智能体开发》（访问教材官网）

继续阅读

第5章基于规范的AI编程-代码和提示词-林子雨编著《AI编程与智能体开发》

林子雨编著《AI编程与智能体开发》（访问教材官网）

继续阅读

代码和提示词-林子雨编著《AI编程与智能体开发》

林子雨编著《AI编程与智能体开发》（访问教材官网）

继续阅读

第4章基于提示词的AI编程-代码和提示词-林子雨编著《AI编程与智能体开发》

林子雨编著《AI编程与智能体开发》（访问教材官网）

继续阅读

OpenClaw（小龙虾）云端部署安装和使用教程

OpenClaw（小龙虾）本地部署安装和使用教程
作者：厦门大学大数据教学团队
联系人：厦门大学计算机系林子雨副教授 ziyulin@xmu.edu.cn
适用对象：本教程适合具备计算机专业知识的群体，不适合普通社会大众。

继续阅读

林子雨编著《数据采集与预处理（第2版）》教材在Windows系统下实验方法

林子雨编著《数据采集与预处理（第2版）》教材在Windows系统下实验方法（访问第2版教材官网）
说明：第1版教材是在Windows系统进行实验，但是，一些高校老师在机房带学生上机实验时，遇到很多问题，主要是机房操作系统的管理员权限无法给学生，而教材实验需要获得管理员权限，导致一些实验无法顺利开展。因此，改版后的第2版教材，采用了在Linux系统中开展实验，学校机房只要安装Linux虚拟机，就可以一键导入教材配套实验环境，顺利开展实验，不会遇到管理员权限的问题。但是，一些高校有些专业学生只懂得用Windows系统，不会用Linux系统，老师仍然需要采用Windows系统进行授课。因此，作者撰写了本指南，指导教材使用者如何在Windows系统下开展实验。需要说明的是，在Linux系统和Windows系统中开展实验，其实没有本质差别，代码都是相同的，比如，Python代码，无论在哪种系统中，都是相同的运行方法。
教材中所有用到的软件可以从百度网盘下载：
链接: https://pan.baidu.com/s/1a9sPaOV-8fu0yiD_8Fe-Gg?pwd=ziyu 提取码:ziyu

继续阅读

“禁止手写一行代码”斯坦福CS新课新规定，点亮计算机教育改革的星星之火！

斯坦福大学计算机系《现代软件开发者》新课程，禁止学生手写一行代码，必须用AI完成软件开发。学生作业里，必须提交你和AI的对话过程。上线不到2个月，60%的学生做出了真实能够运行的产品，而且很多学生不是来自计算机专业。
未来三大趋势：
第一，超级个体崛起。一个人加上AI，就是一支团队，微型独角兽在未来三年内将批量出现。
第二，教育的底层逻辑在变。教育从教技能，变成教杠杆。过去，编程课的学习重点是语法、逻辑、算法，而斯坦福这门课真正训练的是如何发现问题、如何拆解问题、如何与智能协作、如何设计产品，如何让AI构建出你想要的东西，换句话说，不是教你怎么做，而是教你怎么组织智能去做，这是未来10年最稀缺的能力。工业时代教育，教技能。信息时代教育，教结构化知识。AI时代教育，教如何统御和协作智能。
第三，职业分层会被彻底重塑。在过去的20年，我们的人生公式是这样的——好好读书，考好大学，学会一个技能，靠技能换工资。但是，在AI出现之后，这个公式正在崩塌。如何AI可以比你写得更快，学得更快，更新地更快，那未来那些被支付高薪的，就不是技能的执行者，而是智能的驾驭者。也就是说，你不会因为你会做什么而被雇佣，而会因为你能组织智能做出什么结果而被雇佣。