2024年最新教材林子雨编著《数据库系统原理(微课版)》
访问林子雨编著《数据库系统原理(微课版)》教材官网
国内高校知名大数据教师——厦门大学计算机系林子雨副教授编著
系统讲解传统的关系数据库和新兴的NoSQL数据库,全书共14章,内容包括数据库概述、关系数据库、关系数据库标准语言SQL、关系数据库编程、关系数据库安全和保护、关系数据库的规范化理论、关系数据库设计、NoSQL数据库、分布式数据HBase、文档数据库MongoDB、键值数据库Redis、云数据库、数据仓库和数据湖、SQL与大数据。在每个章节的习题解析部分,设计了单选题、多选题、填空题、判断题、简答题和应用题等题型,内容涵盖了理论教材中的核心知识点,并给出了参考答案。在涉及上机实验的相关章节,设计了与理论教材相关的上机实验操作练习,并给出了参考答案。
访问林子雨编著《数据库系统原理(微课版)》教材官网
大数据软件安装和基础编程实践指南(2023年7月版)
版权声明:版权所有,请勿转载。
博客:在VMWare中安装Linux虚拟机
作者:厦门大学计算机系林子雨副教授
E-mail: ziyulin@xmu.edu.cn
摘要:本博客介绍如何在Linux系统中安装各种大数据软件,包括Hadoop、HBase、Spark、Hive、Flink等,以及如何进行编程。本博客内容与林子雨编著《大数据技术原理与应用(第4版)》(访问教材官网)教材配套。
本站所有重要博客索引(可以快速找到你想要阅读的文章)
本站提供了大量大数据学习博客,为了方便读者找到自己感兴趣的文章,特地制作了本索引。
基于Scala语言的Spark数据处理分析案例集锦
【版权声明】版权所有,严禁转载,严禁用于商业用途,侵权必究。
基于Scala语言的Spark数据处理分析案例集锦
案例制作:厦门大学数据库实验室
指导老师:厦门大学信息学院计算机系数据库实验室 林子雨 博士/副教授 E-mail: ziyulin@xmu.edu.cn
相关教材:林子雨、赖永炫、陶继平编著《Spark编程基础(Scala版,第2版)》(访问教材官网)
相关案例:基于Python语言的Spark数据处理分析案例集锦(PySpark)
(1)基于泰坦尼克号生还数据的Spark数据处理分析
(2)基于美剧《权力的游戏》剧集数据的Spark数据处理分析
(3)基于Covid-19传播数据的Spark数据处理分析
(4)基于DOTA2 Matches数据集的Spark数据处理分析
(5)基于音乐数据的Spark数据处理与分析
(6)基于咖啡连锁店的Spark数据处理分析
(7)基于Spark的气象监测数据分析
(8)基于Spark的厦门市市民球场处理与分析
(9)基于Spark的Google Play应用商店数据分析
(10)基于Spark的淘宝数据分析
(11)基于Spark的电信客户流失分析
(12)基于Spark的NBA球员数据分析
基于Python语言的Spark数据处理分析案例集锦(PySpark)
【版权声明】版权所有,严禁转载,严禁用于商业用途,侵权必究。
基于Python语言的Spark数据处理分析案例集锦(PySpark)
案例制作:厦门大学数据库实验室
指导老师:厦门大学信息学院计算机系数据库实验室 林子雨 博士/副教授 E-mail: ziyulin@xmu.edu.cn
相关教材:林子雨、郑海山、赖永炫编著《Spark编程基础(Python版,第2版)》(访问教材官网)
相关案例:基于Scala语言的Spark数据处理分析案例集锦
(1)基于YELP数据集的商业数据分析
(2)2020年美国新冠肺炎疫情数据分析
(3)基于零售交易数据的Spark数据处理与分析
(4)基于地震数据的Spark数据处理与分析
(5)基于Spark的地震数据处理与分析
(6)基于信用卡逾期数据的Spark数据处理与分析
(7)基于 TMDB 数据集的电影数据分析
(8)厦门租房信息分析展示
(9)基于Spark的气象数据处理与分析
(10)基于Spark的音乐专辑数据分析展示
(11)基于CO2排放量数据集的数据分析及可视化
(12)Bilibili网站“每周必看”栏目数据分析
(13)基于电影数据的PySpark数据处理与分析
(14)基于Spark的NBA球员数据分析
(15)基于英国航空公司客户反馈数据的PySpark数据处理与分析
(16)基于Spark的中风数据处理与分析
(17)基于Spark的1996-2022多赛季NBA球员数据分析
(18)基于Spark与大型语言模型的融合应用
(19)基于Python和Spark的淘宝展示广告点击率预估
(20)基于Spark的书籍推荐数据处理与分析
(21)基于Spark的PUBG游戏统计数据分析
(22)基于大模型和Spark的B站数据分析
子雨大数据之Spark入门教程(Scala版)
【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!版权所有,侵权必究!
Spark最初诞生于美国加州大学伯克利分校(UC Berkeley)的AMP实验室,是一个可应用于大规模数据处理的快速、通用引擎。2013年,Spark加入Apache孵化器项目后,开始获得迅猛的发展,如今已成为Apache软件基金会最重要的三大分布式计算系统开源项目之一(即Hadoop、Spark、Storm)。Spark最初的设计目标是使数据分析更快——不仅运行速度快,也要能快速、容易地编写程序。为了使程序运行更快,Spark提供了内存计算,减少了迭代计算时的IO开销;而为了使编写程序更为容易,Spark使用简练、优雅的Scala语言编写,基于Scala提供了交互式的编程体验。虽然,Hadoop已成为大数据的事实标准,但其MapReduce分布式计算模型仍存在诸多缺陷,而Spark不仅具备Hadoop MapReduce所具有的优点,且解决了Hadoop MapReduce的缺陷。Spark正以其结构一体化、功能多元化的优势逐渐成为当今大数据领域最热门的大数据计算平台。
大模型作业:利用MCP一键生成可视化Excel报表
作者:厦门大学计算机系2024级硕士研究生 张肃
指导老师:厦门大学计算机系 林子雨 副教授
E-mail: ziyulin@xmu.edu.cn
一、引言
如何利用MCP(Model-agnostic Plugin)一键生成可视化Excel报表,彻底告别手动制作Excel的繁琐。展示了MCP将杂乱文本数据转化为专业表格和炫酷图表的强大能力,无需编写代码,只需通过提示词即可实现。
MCP:MCP是一个开放协议,作为大模型与外部数据工具交互的通用插头,解决了Function Calling的协议碎片化问题,实现了工具和模型的轻松连接与复用。主要由MCP Host、MCP Client和MCP Server三部分构成,其中Host嵌入在Client中。
我们关注:先寻找合适的服务并使用,后寻找合适的客户端并调用服务。
使用MiniMax大模型生成AI配音
谷歌Nano Banana生图大模型使用指南
作者:厦门大学计算机系林子雨副教授
E-mail: ziyulin@xmu.edu.cn
备注:本实验与林子雨编著《数字素养通识教程》和《人工智能通识教程》教材配套
Nano Banana 是谷歌于2024年推出的AI图像生成与编辑模型,正式名称为 Gemini 2.5 Flash Image 。其在权威的LMArena基准测试中综合评分超越众多竞品,标志着2025年AI 图像生成技术的重大突破。它基于Google DeepMind最新架构,采用原生多模态设计,统一处理文本理解、图像生成与编辑等功能,拥有32K上下文窗口,能进行复杂多轮对话和编辑,还内置丰富世界知识。其核心技术能力强大,不仅支持文本描述转图像,还具备深度语义理解能力,能理解物理规律、时间概念、逻辑推理等。例如输入 “这个披萨在 400 度烤箱里烤 2 小时”,能生成烤焦的披萨图像。Nano Banana 的智能图像编辑引擎可精准局部编辑,如面部美化、体型调整且保留细节;角色一致性保持算法能解决 AI 图像生成领域角色一致性难题,面部特征保留率达 99%。在速度方面,仅需 2.3 秒就能生成 1024×1024 的高质量图像 。
利用大模型和MCP协议实现用自然语言去查询MongoDB数据库
利用大模型和MCP协议实现用自然语言去查询MongoDB数据库
作者:厦门大学计算机系2022级本科生 赵家宇
指导老师:厦门大学计算机系 林子雨 副教授
配套教材:林子雨编著《数据库系统原理(微课版)》
【大模型作业要求】
利用大模型和MCP协议,使用VS Code和AI编程插件Cline,实现用自然语言去查询各种数据库(比如,输入文字“请查询学生选课成绩的平均分”来查询数据库),要求统一使用我们课堂教学中用到的选课数据库,要求使用文档数据库MongoDB,要求提交WORD文档,文档里要详细描述实验实现的每个细节步骤,要求给出每步截图和文字说明。排版格式要规范。
利用大模型和MCP协议实现用自然语言去查询MySQL数据库
利用大模型和MCP协议实现用自然语言去查询MySQL数据库
作者:厦门大学计算机系2022级本科生 丁甜缘
指导老师:厦门大学计算机系 林子雨 副教授
配套教材:林子雨编著《数据库系统原理(微课版)》
一、大模型作业要求
利用大模型和MCP协议,使用VS Code和AI编程插件Cline,实现用自然语言去查询各种数据库(比如,输入文字“请查询学生选课成绩的平均分”来查询数据库),要求统一使用我们课堂教学中用到的选课数据库,要求使用关系数据库(比如MySQL),要求提交WORD文档,文档里要详细描述实验实现的每个细节步骤,要求给出每步截图和文字说明。排版格式要规范。
基于大模型和Spark的B站数据分析
【版权声明】版权所有,严禁转载,严禁用于商业用途,侵权必究。
作者:厦门大学计算机科学与技术系2024级研究生 陈增辉
指导老师:厦门大学数据库实验室 林子雨 博士/副教授
时间:2025年6月
相关教材:林子雨、郑海山、赖永炫编著《Spark编程基础(Python版,第2版)》(访问教材官网)
相关案例:基于Python语言的Spark数据处理分析案例集锦(PySpark)
数据集和代码下载:从百度网盘下载本案例数据集和代码。(提取码是ziyu)
在Linux中安装Eclipse
Eclipse是常用的程序开发工具,本教程很多程序代码都是使用Eclipse开发调试,因此,需要在Linux系统中安装Eclipse。
可以到Eclipse官网(https://www.eclipse.org/downloads/) 下载安装包,或者直接访问教程官网下载该软件,位于“下载专区”的“软件”目录下,文件名是eclipse-4.7.0-linux.gtk.x86_64.tar.gz。假设安装文件下载后保存在了Linux系统的目录“~/Downloads”下,下面执行如下命令对文件进行解压缩:
cd ~/Downloads
sudo tar -zxvf ./eclipse-4.7.0-linux.gtk.x86_64.tar.gz -C /usr/local
然后,执行如下命令启动Eclipse:
cd /usr/local/eclipse
./eclipse
这时,就可以看到Eclipse的启动界面了。
大数据软件安装和基础编程实践指南(2025年5月版)
版权声明:版权所有,请勿转载。
作者:厦门大学计算机系林子雨副教授
E-mail: ziyulin@xmu.edu.cn
摘要:本博客介绍如何在Linux系统中安装各种大数据软件,包括Hadoop、HBase、Spark、Hive、Flink等,以及如何进行编程。本博客内容与林子雨编著《大数据技术原理与应用(第4版,高职版)》(访问教材官网)教材配套。
基于DeepSeek + VSCode 实现AI辅助编程-以词频统计为例
作者:厦门大学信息学院计算机科学系2023级研究生 黄万嘉
指导老师:厦门大学数据库实验室 林子雨 博士/副教授
随着人工智能技术的飞速发展,AI 辅助编程逐渐成为提升开发效率、优化代码质量的重要工具。本文通过结合 DeepSeek 的强大语言模型和 VSCode 的高效开发环境,展示了如何利用 AI 辅助编程完成一个经典的 MapReduce 词频统计任务。这一实践不仅展示了 AI 在编程中的应用潜力,还为开发者提供了一个高效、便捷的开发流程示例,帮助读者快速上手 AI 辅助编程,并探索其在实际项目中的应用价值。
使用coze搭建基于DeepSeek大模型的智能体实现智能客服问答
作者:厦门大学信息学院计算机科学系2023级研究生 曹基民
指导老师:厦门大学数据库实验室 林子雨 博士/副教授
本章实验完全依托于coze在线平台,不需要本地部署任何应用。
本章以搭建关于厦门大学数据库实验室的客服为例,如有搭建其他客服的需要,可以修改相关内容自行搭建。