2024年最新教材林子雨编著《数据库系统原理(微课版)》
访问林子雨编著《数据库系统原理(微课版)》教材官网
国内高校知名大数据教师——厦门大学计算机系林子雨副教授编著
系统讲解传统的关系数据库和新兴的NoSQL数据库,全书共14章,内容包括数据库概述、关系数据库、关系数据库标准语言SQL、关系数据库编程、关系数据库安全和保护、关系数据库的规范化理论、关系数据库设计、NoSQL数据库、分布式数据HBase、文档数据库MongoDB、键值数据库Redis、云数据库、数据仓库和数据湖、SQL与大数据。在每个章节的习题解析部分,设计了单选题、多选题、填空题、判断题、简答题和应用题等题型,内容涵盖了理论教材中的核心知识点,并给出了参考答案。在涉及上机实验的相关章节,设计了与理论教材相关的上机实验操作练习,并给出了参考答案。
访问林子雨编著《数据库系统原理(微课版)》教材官网
大数据软件安装和基础编程实践指南(2023年7月版)
版权声明:版权所有,请勿转载。
博客:在VMWare中安装Linux虚拟机
作者:厦门大学计算机系林子雨副教授
E-mail: ziyulin@xmu.edu.cn
摘要:本博客介绍如何在Linux系统中安装各种大数据软件,包括Hadoop、HBase、Spark、Hive、Flink等,以及如何进行编程。本博客内容与林子雨编著《大数据技术原理与应用(第4版)》(访问教材官网)教材配套。
本站所有重要博客索引(可以快速找到你想要阅读的文章)
本站提供了大量大数据学习博客,为了方便读者找到自己感兴趣的文章,特地制作了本索引。
基于Scala语言的Spark数据处理分析案例集锦
【版权声明】版权所有,严禁转载,严禁用于商业用途,侵权必究。
基于Scala语言的Spark数据处理分析案例集锦
案例制作:厦门大学数据库实验室
指导老师:厦门大学信息学院计算机系数据库实验室 林子雨 博士/副教授 E-mail: ziyulin@xmu.edu.cn
相关教材:林子雨、赖永炫、陶继平编著《Spark编程基础(Scala版,第2版)》(访问教材官网)
相关案例:基于Python语言的Spark数据处理分析案例集锦(PySpark)
(1)基于泰坦尼克号生还数据的Spark数据处理分析
(2)基于美剧《权力的游戏》剧集数据的Spark数据处理分析
(3)基于Covid-19传播数据的Spark数据处理分析
(4)基于DOTA2 Matches数据集的Spark数据处理分析
(5)基于音乐数据的Spark数据处理与分析
(6)基于咖啡连锁店的Spark数据处理分析
(7)基于Spark的气象监测数据分析
(8)基于Spark的厦门市市民球场处理与分析
(9)基于Spark的Google Play应用商店数据分析
(10)基于Spark的淘宝数据分析
(11)基于Spark的电信客户流失分析
(12)基于Spark的NBA球员数据分析
基于Python语言的Spark数据处理分析案例集锦(PySpark)
【版权声明】版权所有,严禁转载,严禁用于商业用途,侵权必究。
基于Python语言的Spark数据处理分析案例集锦(PySpark)
案例制作:厦门大学数据库实验室
指导老师:厦门大学信息学院计算机系数据库实验室 林子雨 博士/副教授 E-mail: ziyulin@xmu.edu.cn
相关教材:林子雨、郑海山、赖永炫编著《Spark编程基础(Python版,第2版)》(访问教材官网)
相关案例:基于Scala语言的Spark数据处理分析案例集锦
(1)基于YELP数据集的商业数据分析
(2)2020年美国新冠肺炎疫情数据分析
(3)基于零售交易数据的Spark数据处理与分析
(4)基于地震数据的Spark数据处理与分析
(5)基于Spark的地震数据处理与分析
(6)基于信用卡逾期数据的Spark数据处理与分析
(7)基于 TMDB 数据集的电影数据分析
(8)厦门租房信息分析展示
(9)基于Spark的气象数据处理与分析
(10)基于Spark的音乐专辑数据分析展示
(11)基于CO2排放量数据集的数据分析及可视化
(12)Bilibili网站“每周必看”栏目数据分析
(13)基于电影数据的PySpark数据处理与分析
(14)基于Spark的NBA球员数据分析
(15)基于英国航空公司客户反馈数据的PySpark数据处理与分析
(16)基于Spark的中风数据处理与分析
(17)基于Spark的1996-2022多赛季NBA球员数据分析
(18)基于Spark与大型语言模型的融合应用
(19)基于Python和Spark的淘宝展示广告点击率预估
(20)基于Spark的书籍推荐数据处理与分析
(21)基于Spark的PUBG游戏统计数据分析
子雨大数据之Spark入门教程(Scala版)
【版权声明】博客内容由厦门大学数据库实验室拥有版权,未经允许,请勿转载!版权所有,侵权必究!
Spark最初诞生于美国加州大学伯克利分校(UC Berkeley)的AMP实验室,是一个可应用于大规模数据处理的快速、通用引擎。2013年,Spark加入Apache孵化器项目后,开始获得迅猛的发展,如今已成为Apache软件基金会最重要的三大分布式计算系统开源项目之一(即Hadoop、Spark、Storm)。Spark最初的设计目标是使数据分析更快——不仅运行速度快,也要能快速、容易地编写程序。为了使程序运行更快,Spark提供了内存计算,减少了迭代计算时的IO开销;而为了使编写程序更为容易,Spark使用简练、优雅的Scala语言编写,基于Scala提供了交互式的编程体验。虽然,Hadoop已成为大数据的事实标准,但其MapReduce分布式计算模型仍存在诸多缺陷,而Spark不仅具备Hadoop MapReduce所具有的优点,且解决了Hadoop MapReduce的缺陷。Spark正以其结构一体化、功能多元化的优势逐渐成为当今大数据领域最热门的大数据计算平台。
使用coze搭建基于DeepSeek大模型的智能体实现智能客服问答
作者:厦门大学信息学院计算机科学系2023级研究生 曹基民
指导老师:厦门大学数据库实验室 林子雨 博士/副教授
本章实验完全依托于coze在线平台,不需要本地部署任何应用。
本章以搭建关于厦门大学数据库实验室的客服为例,如有搭建其他客服的需要,可以修改相关内容自行搭建。
基于Ollama + Open-Webui实现局域网内DeepSeek大模型分享以及知识库构建
作者:厦门大学信息学院计算机科学系2023级研究生 黄万嘉
指导老师:厦门大学数据库实验室 林子雨 博士/副教授
部分行业(如金融、医疗、政务等)对数据存储和传输有严格的合规要求,在局域网内部署DeepSeek可以满足监管需求。同时,内网部署 DeepSeek 并使用局域网共享,不仅能够提升数据安全性和服务稳定性,还能满足团队高效协作、合规管控和定制化需求,是团队或企业内部智能化升级的理想选择。
基于此,本文采用Ollama + Open-Webui的方案,实现宿主机本地部署DeepSeek等大模型并构建知识库,其他同一局域网内的用户机可以通过浏览器使用DeepSeek以及宿主机构建的知识库。
基于Cherry Studio实现DeepSeek大模型 + RAG知识库
作者:厦门大学信息学院计算机科学系2023级研究生 黄万嘉
指导老师:厦门大学数据库实验室 林子雨 博士/副教授
Cherry Studio 是一款功能强大的跨平台桌面客户端,专为支持多模型服务而设计,旨在为用户提供高效、便捷的 AI 交互体验。它集成了超过 300 个大语言模型,支持多种主流 AI 服务商(如DeepSeek ),并兼容本地模型运行(通过 Ollama),满足用户在不同场景下的需求。
本文使用到的工具及模型有:
- Ollama:模型部署工具
- DeepSeek R1 1.5b:推理模型,基于Ollama本地部署
- nomic-embed-text:嵌入模型,用于对输入的文件(知识)进行向量化
- Cherry Studio:集成各功能的AI助手平台
通过上述工具和模型,可以构建一个本地的知识库,帮助大模型进行更准确地回复。
基于DeepSeek大模型和Page Assist构建本地知识库
作者:厦门大学信息学院计算机科学系2023级研究生 黄万嘉
指导老师:厦门大学数据库实验室 林子雨 博士/副教授
在构建本地知识库时,通常会结合 Page Assist 和 nomic-embed-text,常见的方案为:
- 使用 nomic-embed-text 模型将知识库文档向量化。
- 当用户提问时,将问题向量化并与知识库中的文档向量进行相似性匹配,找到最相关的上下文。
- 将检索到的上下文输入大语言模型(如 DeepSeek),生成最终的回答
Page Assist提供了一个本地大模型的Web UI,同时也提供了方便的RAG设置,使得我们更快捷地构建本地知识库,基于此,本文采用Page Assist,基于DeepSeek大模型,实现了用户提供本地知识库(.pdf/.csv/.docx/.md),大模型进行更加专业地回复。
在本地计算机上利用AnythingLLM构建DeepSeek大模型本地知识库
作者:厦门大学信息学院计算机科学系2023级研究生 曹基民
指导老师:厦门大学数据库实验室 林子雨 博士/副教授
系统要求:win10及以上
硬盘空间:10G以上
硬件要求:
CPU:Intel Core i5/AMD Ryzen 5及以上
GPU:无强制要求,有1GB及以上显存可提升性能
在本地计算机上离线部署DeepSeek大模型
在自己本地计算机上部署DeepSeek R1大模型实战
推荐:林子雨编著《数字素养通识教程》,面向大一新生的大学计算机公共课教材,培养学生的计算思维、数据思维和AI思维(访问教材官网)
在自己本地计算机上部署DeepSeek R1大模型实战
作者:厦门大学计算机系林子雨副教授
简介:编著15本大数据系列教材被国内1000多所高校采用(获取所有教材资源)
E-mail:ziyulin@xmu.edu.cn
个人主页:https://dblab.xmu.edu.cn/post/linziyu/
2025年1月,中国春节期间,DeepSeek爆火,称为全球最炙手可热的大模型。这里以DeepSeek为例介绍在自己本地计算机上部署大模型的方法。操作过程中,遇到很多错误,借助于豆包大模型,把每个错误都解决了,顺利完成了安装过程。我的笔记本电脑是联想ThinkPad X13,安装了Windows10操作系统,硬件配置是,16GB内存,1TB硬盘。实际上,只要电脑具有8GB内存和30GB可用磁盘空间即可安装最小版本的DeepSeek R1大模型。本教程提供了全套软件下载(同时也在文中给出了这些软件的官方下载地址),请从百度网盘下载:https://pan.baidu.com/s/1kOcyzb3QGMnJOoIVXka4NA?pwd=ziyu
提取码是ziyu
备注:我的百度网盘分享链接没有设置人数限制,但是百度依然对这个链接进行人数限制,所以,如果无法访问该链接,可以在阅读正文过程中,根据正文中给出的各个软件的官网地址去官网下载软件,就是速度会稍微慢一些。
或者,也可以加入第3个QQ群(群号是978446419),从群共享文件中下载全套软件。
特别强调,在自己本地计算机上部署DeepSeek R1大模型,不需要读者具备任何计算机基础知识,也不需要掌握任何编程知识,只要会使用Windows操作系统就可以,按照本文给出的步骤,一步步执行,就可以顺利完成所有操作。也就是说,即使是一个大学一年级的文科生,也可以顺利完成本文的所有操作。
基于Python和Flink的全球疫苗接种数据分析
【版权声明】版权所有,严禁转载,严禁用于商业用途,侵权必究。
作者:厦门大学计算机科学与技术系2023级研究生 黄邦
指导老师:厦门大学数据库实验室 林子雨 博士/副教授
时间:2024年6月
相关教材:林子雨编著《Flink编程基础(Java版)》(访问教材官网)
相关案例:Flink大数据处理分析案例集锦
本案例使用了Kaggle上的全球疫苗接种数据集,在Ubuntu虚拟机上使用Flink框架完成数据处理,使用Python语言实现,最后使用Python plotly包完成数据可视化。
数据集和代码下载:从百度网盘下载本案例的代码和数据集。(提取码是ziyu)
基于Python和Flink的Spotify歌曲数据分析
【版权声明】版权所有,严禁转载,严禁用于商业用途,侵权必究。
作者:厦门大学计算机科学与技术系2023级研究生 亢恒越
指导老师:厦门大学数据库实验室 林子雨 博士/副教授
时间:2024年6月
相关教材:林子雨编著《Flink编程基础(Java版)》(访问教材官网)
相关案例:Flink大数据处理分析案例集锦
本案例用Python语言编写了Flink程序,对Spodify数据集进行了数据处理和分析,之后对分析结果使用Pyecharts进行了可视化,并分别保存为HTML和PNG格式。
数据集和代码下载:从百度网盘下载本案例的代码和数据集。(提取码是ziyu)