大数据分析方法及应用——基于Python实现 / 面向新工科高等院校大数据专业系列教材
定价:¥79.00
作者: 殷丽凤,王斐
出版时间:2025-08-05
出版社:机械工业出版社
- 机械工业出版社
- 9787111782919
- 1-1
- 558603
- 平装
- 2025-08-05
- 469
内容简介
《大数据分析方法及应用——基于Python实现》全面且系统地阐述了基于Python语言的大数据分析方法及技术,整体结构紧凑,逻辑清晰。全书共10章,前5章旨在为读者打下坚实的理论与实践基础。该部分始于大数据的基本概念,随后逐步深入Python基础知识、数据预处理技术、大数据可视化手段及基于Python的数据处理与预处理技术,确保读者能够全面掌握数据分析所需的基本工具与方法。后5章则深入探索大数据分析的核心技术领域,涵盖关联分析、回归分析、分类分析、聚类分析及离群点分析等关键内容。全书每一章均配有精心设计的典型案例与Python代码实例,通过实战演练的形式,直观展现大数据分析原理在实际中的具体运用,读者在巩固理论知识的同时,能够亲身体验实际操作过程,进而深化对大数据分析流程的理解与认识。
《大数据分析方法及应用——基于Python实现》在内容的专业性与阅读体验之间取得了良好的平衡,既可作为高校大数据技术课程的教材,也适合大数据技术爱好者进行自学。无论读者是初学者,还是已具备一定基础的从业者,本书均能提供宝贵的启示与实用的知识,助力读者在大数据分析的道路上不断前行。
《大数据分析方法及应用——基于Python实现》在内容的专业性与阅读体验之间取得了良好的平衡,既可作为高校大数据技术课程的教材,也适合大数据技术爱好者进行自学。无论读者是初学者,还是已具备一定基础的从业者,本书均能提供宝贵的启示与实用的知识,助力读者在大数据分析的道路上不断前行。
目录
前言
第1章大数据分析概述
11大数据介绍
111大数据概念
112大数据的5个“V”
113大数据的处理方法
12大数据关键技术
121数据采集
122数据预处理
123数据存储与管理
124数据分析与挖掘
125数据展现与可视化
13大数据分析在不同领域的
应用
131商业与市场营销
132医疗与健康
133金融与保险
134社交网络与媒体
14Python介绍
141安装Python解释器
142安装PyCharm
143安装 Anaconda
15本章小结
16习题
第2章Python大数据分析基础
21Python基础语法
211关键字和标识符
212常量与变量
213基本数据类型
214运算符和表达式
22程序控制结构
221顺序结构
222分支结构
223循环结构
224跳转语句
23组合数据类型
231列表
232元组
233字典
234集合
24函数
241函数的定义
242函数的参数
243函数的作用域
244递归函数
25面向对象程序设计
251Python中的面向对象
252成员可见性
253方法
254类的继承
26Python数据分析工具
27本章小结
28习题
第3章大数据预处理
31大数据预处理流程
32数据清洗
321缺失值处理
322噪声过滤
33数据集成
331实体识别
332冗余属性识别
34数据规约
341属性规约
342数值规约
35数据变换
351数据规范化
352连续属性离散化
36本章小结
37习题
第4章大数据可视化分析
41大数据可视化基础
411可视化的重要性
412可视化设计原则
42Matplotlib基础——NumPy
421创建数组
422数组的常见属性
423数组的常见操作
424数组的统计分析
43Matplotlib
431pyplot绘图基础
432绘制散点图
433绘制折线图
434绘制柱状图
435绘制直方图
436绘制饼图
437绘制箱线图
44实践——中国GDP分析
441数据准备
442散点图分析
443折线图分析
444柱状图分析
445饼图分析
446箱线图分析
45本章小结
46习题
第5章pandas数据处理与分析
51认识pandas
511pandas简介
512pandas的安装与使用
52pandas语法
521Series类型
522DataFrame类型
523DataFrame数据计算
53pandas读写数据
531pandas读数据
532pandas写数据
54使用pandas进行数据
预处理
541合并数据
542缺失值处理
543排序和汇总
55统计分析
551分组聚合运算
552创建透视表与交叉表
56本章小结
57习题
第6章关联分析
61关联分析基础
611啤酒与尿布的故事
612关联分析的定义
613常用关联分析算法
62Apriori算法
621相关概念
622挖掘频繁项集
623挖掘关联规则
624Apriori算法的缺点
63FP-growth算法
631创建FP树
632利用FP树挖掘频繁项集
633FP-growth算法的伪代码
64ECLAT算法
641使用垂直数据格式挖掘
频繁项集
642ECLAT算法的伪代码
65关联规则评估指标
66实践——商品零售购物篮
分析
661背景与挖掘目标
662数据初步探析
663构建关联分析模型
664评估关联分析模型
67本章小结
68习题
第7章回归分析
71回归分析的基础
711回归分析的概念
712回归分析的步骤
72一元线性回归
721一元线性回归模型
722参数w和b的推导过程
723参数w和b求解的
代码实现
73多元线性回归
731多元线性回归模型和
参数求解
732参数W求解的代码实现
74正则化回归
741岭回归模型
742最小绝对收缩与选择算子
743弹性网络
75回归模型的评价指标
76实践——回归分析
761数据的初步探析
762利用一元线性回归预测房屋
完成单位数量模型
763利用多元线性回归预测房屋
完成单位数量模型
764利用正则化回归预测房屋
完成单位数量模型
77本章小结
78习题
第8章分类分析
81分类分析的基础
811二元分类和多元分类
812分类的步骤
82决策树
821决策树归纳
822属性选择度量
823实例分析
824树剪枝处理
83贝叶斯分类
831相关概念
832朴素贝叶斯分类器
833朴素贝叶斯实例分析
834拉普拉斯修正
835朴素贝叶斯算法伪代码
84支持向量机
841数据线性可分情况
842最大边缘超平面
843硬间隔支持向量机
844软间隔支持向量机
845核支持向量机
85分类的评价指标
851二元分类的评价指标
852多元分类的评价指标
86实践——分类分析
861利用决策树构建银行客户
流失模型
862利用朴素贝叶斯构建垃圾
邮件分类模型
863利用SVM构建印第安人
糖尿病分类模型
87本章小结
88习题
第9章聚类分析
91聚类分析基础
911聚类分析的概念
912相似性度量
913聚类的评价指标
92基于划分的聚类分析
921K-Means聚类
922K-Means++聚类
93基于层次的聚类分析
931自底向上聚类算法
932自顶向下聚类算法
94基于密度的聚类分析
941DBSCAN算法
942OPTICS算法
95实践——聚类分析
951基于划分聚类实现能源效率
信息聚类
952基于层次聚类完成用户行为
数据聚类
953利用DBSCAN进行人口
信息聚类
96本章小结
97习题
第10章离群点分析
101离群点分析基础
1011离群点分析的定义
1012离群点分析的作用
102基于统计的离群点分析
1021均值与标准差方法
1022箱线图方法
103基于距离的离群点分析
1031欧氏距离
1032曼哈顿距离
104基于密度的离群点分析
1041局部离群因子(LOF)
方法
1042基于密度的空间聚类
(DBSCAN)方法
105实践——异常小麦
种子分析
1051数据读入
1052数据初步分析
1053数据预处理
1054构建离群点模型
1055评估离群点模型
1056离群点分析的意义
106本章小结
107习题
参考文献
第1章大数据分析概述
11大数据介绍
111大数据概念
112大数据的5个“V”
113大数据的处理方法
12大数据关键技术
121数据采集
122数据预处理
123数据存储与管理
124数据分析与挖掘
125数据展现与可视化
13大数据分析在不同领域的
应用
131商业与市场营销
132医疗与健康
133金融与保险
134社交网络与媒体
14Python介绍
141安装Python解释器
142安装PyCharm
143安装 Anaconda
15本章小结
16习题
第2章Python大数据分析基础
21Python基础语法
211关键字和标识符
212常量与变量
213基本数据类型
214运算符和表达式
22程序控制结构
221顺序结构
222分支结构
223循环结构
224跳转语句
23组合数据类型
231列表
232元组
233字典
234集合
24函数
241函数的定义
242函数的参数
243函数的作用域
244递归函数
25面向对象程序设计
251Python中的面向对象
252成员可见性
253方法
254类的继承
26Python数据分析工具
27本章小结
28习题
第3章大数据预处理
31大数据预处理流程
32数据清洗
321缺失值处理
322噪声过滤
33数据集成
331实体识别
332冗余属性识别
34数据规约
341属性规约
342数值规约
35数据变换
351数据规范化
352连续属性离散化
36本章小结
37习题
第4章大数据可视化分析
41大数据可视化基础
411可视化的重要性
412可视化设计原则
42Matplotlib基础——NumPy
421创建数组
422数组的常见属性
423数组的常见操作
424数组的统计分析
43Matplotlib
431pyplot绘图基础
432绘制散点图
433绘制折线图
434绘制柱状图
435绘制直方图
436绘制饼图
437绘制箱线图
44实践——中国GDP分析
441数据准备
442散点图分析
443折线图分析
444柱状图分析
445饼图分析
446箱线图分析
45本章小结
46习题
第5章pandas数据处理与分析
51认识pandas
511pandas简介
512pandas的安装与使用
52pandas语法
521Series类型
522DataFrame类型
523DataFrame数据计算
53pandas读写数据
531pandas读数据
532pandas写数据
54使用pandas进行数据
预处理
541合并数据
542缺失值处理
543排序和汇总
55统计分析
551分组聚合运算
552创建透视表与交叉表
56本章小结
57习题
第6章关联分析
61关联分析基础
611啤酒与尿布的故事
612关联分析的定义
613常用关联分析算法
62Apriori算法
621相关概念
622挖掘频繁项集
623挖掘关联规则
624Apriori算法的缺点
63FP-growth算法
631创建FP树
632利用FP树挖掘频繁项集
633FP-growth算法的伪代码
64ECLAT算法
641使用垂直数据格式挖掘
频繁项集
642ECLAT算法的伪代码
65关联规则评估指标
66实践——商品零售购物篮
分析
661背景与挖掘目标
662数据初步探析
663构建关联分析模型
664评估关联分析模型
67本章小结
68习题
第7章回归分析
71回归分析的基础
711回归分析的概念
712回归分析的步骤
72一元线性回归
721一元线性回归模型
722参数w和b的推导过程
723参数w和b求解的
代码实现
73多元线性回归
731多元线性回归模型和
参数求解
732参数W求解的代码实现
74正则化回归
741岭回归模型
742最小绝对收缩与选择算子
743弹性网络
75回归模型的评价指标
76实践——回归分析
761数据的初步探析
762利用一元线性回归预测房屋
完成单位数量模型
763利用多元线性回归预测房屋
完成单位数量模型
764利用正则化回归预测房屋
完成单位数量模型
77本章小结
78习题
第8章分类分析
81分类分析的基础
811二元分类和多元分类
812分类的步骤
82决策树
821决策树归纳
822属性选择度量
823实例分析
824树剪枝处理
83贝叶斯分类
831相关概念
832朴素贝叶斯分类器
833朴素贝叶斯实例分析
834拉普拉斯修正
835朴素贝叶斯算法伪代码
84支持向量机
841数据线性可分情况
842最大边缘超平面
843硬间隔支持向量机
844软间隔支持向量机
845核支持向量机
85分类的评价指标
851二元分类的评价指标
852多元分类的评价指标
86实践——分类分析
861利用决策树构建银行客户
流失模型
862利用朴素贝叶斯构建垃圾
邮件分类模型
863利用SVM构建印第安人
糖尿病分类模型
87本章小结
88习题
第9章聚类分析
91聚类分析基础
911聚类分析的概念
912相似性度量
913聚类的评价指标
92基于划分的聚类分析
921K-Means聚类
922K-Means++聚类
93基于层次的聚类分析
931自底向上聚类算法
932自顶向下聚类算法
94基于密度的聚类分析
941DBSCAN算法
942OPTICS算法
95实践——聚类分析
951基于划分聚类实现能源效率
信息聚类
952基于层次聚类完成用户行为
数据聚类
953利用DBSCAN进行人口
信息聚类
96本章小结
97习题
第10章离群点分析
101离群点分析基础
1011离群点分析的定义
1012离群点分析的作用
102基于统计的离群点分析
1021均值与标准差方法
1022箱线图方法
103基于距离的离群点分析
1031欧氏距离
1032曼哈顿距离
104基于密度的离群点分析
1041局部离群因子(LOF)
方法
1042基于密度的空间聚类
(DBSCAN)方法
105实践——异常小麦
种子分析
1051数据读入
1052数据初步分析
1053数据预处理
1054构建离群点模型
1055评估离群点模型
1056离群点分析的意义
106本章小结
107习题
参考文献