- 中国铁道出版社
- 9787113310516
- 1-1
- 521554
- 68250161-4
- 16开
- 2024-03
- 计算机类
- 高职
内容简介
本书以项目为导向,全面介绍数据挖掘与机器学习的流程和 Python 数据分析库的应用,详细讲解利用Python 解决实际问题的方法。全书共分九个项目。项目一介绍搭建数据挖掘与机器学习的编程环境;项目二利用农产品信息可视化分析项目介绍 NumPy、pandas 与 Matplotlib 库的应用;项目三至项目八利用真实项目,介绍线性回归、逻辑回归、决策树、随机森林、朴素贝叶斯、 K 近邻、聚类分析、神经网络;项目九结合之前所学的数据挖掘与机器学习技术,进行企业综合案例数据分析。各项目都包含了实训或课后作业,通过练习和操作实践,帮助读者巩固所学的内容。
本书适合作为高等职业院校大数据技术、人工智能技术应用、软件技术等相关专业的教材,也可作为大数据技术爱好者的自学用书。
本书适合作为高等职业院校大数据技术、人工智能技术应用、软件技术等相关专业的教材,也可作为大数据技术爱好者的自学用书。
目录
项目一 搭建数据挖掘与机器学习编程环境 1
任务一 安装 Python2
任务描述 2
相关知识 2
一、初识数据挖掘与机器学习 .2
二、初识 Python .5
三、了解 Python 的 Anaconda 发行版 .6
任务实施 6
一、在 Windows 操作系统中安装 Anaconda 发行版 6
二、体验 Jupyter Notebook .9
任务二 安装 PyCharm 14
任务描述 14
相关知识 15
一、初识 PyCharm .15
二、PyCharm 中的输入与输出 .15
任务实施 16
一、安装 PyCharm .16
二、使用 PyCharm .21
三、建立一个 PyCharm 项目 23
项目总结 24
课后作业24
项目二 农产品信息可视化分析——NumPy、pandas 与 Matplotlib 库 26
任务一 分析农产品类型情况 27
任务描述 27
相关知识 27
一、创建数组对象 .27
二、数组基本操作 .31
任务实施 34
一、用水稻类型数量创建数组 .34
二、对品种数量进行排序 .34
三、分析水稻类型数量的占比情况 .35
任务实训 35
实训一 分析小麦类型数量 .35
任务二 处理农产品基本信息数据 36
任务描述 36
相关知识 36
一、数据读取与写入 .36
二、pandas 数据结构 .40
三、pandas 数据处理 .44
任务实施 56
一、读取农产品基本信息数据 .56
二、缺失值检测与处理 .56
三、异常值检测与处理 .57
四、重复值检测与处理 .58
五、存储数据 .59
任务实训 59
实训二 处理小麦基本信息数据 .59
任务三 分析农产品数量情况 60
任务描述 60
相关知识 60
一、基础语法和常用参数 .60
二、绘制基本图形 .64
任务实施 70
一、分析省级以上部门审定数量 .71
二、分析水稻品种数量 .72
三、分析各地审定水稻品种分布 .74
四、分析水稻品种数量发展趋势 .75
任务实训 77
实训三 分析小麦生长情况 .77
项目总结 78
课后作业 78
项目三 建筑工程混凝土抗压强度检测——线性回归 . 80
任务一 构建建筑工程混凝土抗压强度检测模型 81
任务描述 81
相关知识 81
任务实施 84
一、读取混凝土成分数据 .84
二、对自变量和因变量进行可视化 .85
三、构建一元线性回归检测模型 .86
四、对混凝土抗压强度进行检测 .86
五、对检测结果进行可视化 .87
六、构造一元线性回归方程 .88
任务实训 88
实训一 构建建筑物能效检测模型 .88
任务二 评估建筑工程混凝土抗压强度检测模型 89
任务描述 89
相关知识 89
任务实施 92
一、使用平均绝对误差指标评估模型 .92
二、使用均方误差指标评估模型 .92
三、使用可解释方差指标评估模型 .93
四、使用 R 方指标评估模型 .93
任务实训 93
实训二 评估建筑物能效检测模型 .93
任务三 优化建筑工程混凝土抗压强度检测模型 94
任务描述 94
相关知识 94
任务实施 97
一、构建多元线性回归检测模型 .97
二、对混凝土抗压强度进行检测 .98
三、对预测结果进行可视化 .98
四、构造多元线性回归方程 .99
五、评估多元线性回归检测模型 .99
任务实训 100
实训三 优化建筑物能效检测模型 .100
项目总结 101
课后作业101
项目四 电商平台运输行为预测——逻辑回归103
任务一 处理电商平台运输行为数据 104
任务描述 104
相关知识 104
一、哑变量处理 .105
二、离散化处理 .107
三、属性构造 . 110
任务实施 111
一、读取电商平台运输行为数据 . 111
二、哑变量处理 . 115
三、属性构造 . 115
任务实训 116
实训一 处理送货卡车运输行为数据 . 116
任务二 构建电商平台运输行为预测 117
任务描述 117
相关知识 117
任务实施 122
一、构建逻辑回归模型 .122
二、绘制运输预测结果柱形图 .124
任务实训 125
实训二 构建送货卡车运输行为预测模型 .125
任务三 评估与优化电商平台运输行为预测126
任务描述 126
相关知识 126
一、混淆矩阵、准确率与召回率 .126
二、ROC 曲线 129
三、样本平衡 .131
任务实施 134
一、评估电商平台运输行为预测 .134
二、利用样本平衡进行模型优化 .136
三、过采样后的模型效果 .137
任务实训 139
实训三 评估送货卡车运输行为预测模型 .139
项目总结 140
课后作业 140
项目五 加工厂玻璃类别识别——决策树、随机森林 143
任务一 处理玻璃成分数据 144
任务描述 144
相关知识 144
一、数据标准化 .144
二、数据降维 .148
任务实施 153
一、读取玻璃类别数据 .153
二、使用标准差标准化数据 .154
三、使用 PCA 进行数据降维 .155
任务实训 156
实训一 处理印刷品圆筒成分数据 156
任务二 构建加工厂玻璃类别识别模型 157
任务描述 157
相关知识 157
任务实施 159
一、导入开发库 .159
二、拆分训练集和测试集 .160
三、构建决策树模型 .160
四、评估决策树模型 .160
任务实训 161
实训二 构建印刷品圆筒成分识别模型 .161
任务三 评估与优化加工厂玻璃类别识别模型 161
任务描述 161
相关知识 162
一、K 折交叉验证与 GridSearch 网络搜索 .162
二、随机森林 .165
任务实施 167
一、使用 GridSearch 网络搜索进行模型调优 .167
二、构建随机森林模型 .169
任务实训 171
实训三 优化印刷品圆筒成分识别模型 .171
项目总结 172
课后作业 172
项目六 运输车辆安全驾驶行为分析——朴素贝叶斯、K 近邻 174
任务一 构建运输车辆安全驾驶行为分析模型 175
任务描述 175
相关知识 175
一、高斯朴素贝叶斯 .176
二、多项式分布朴素贝叶斯 .177
任务实施 178
一、读取并探索驾驶行为数据 .178
二、处理驾驶行为数据 .182
三、构建高斯朴素贝叶斯模型 .186
四、构建多项式分布朴素贝叶斯模型 .189
任务实训 192
实训一 构建驾驶行为分析模型 .192
任务二 优化运输车辆安全驾驶行为分析模型 � 193
任务描述 193
相关知识 193
一、K 近邻 .193
二、对比分析法 .196
任务实施 197
一、构建 K 近邻模型 197
二、评估 K 近邻模型 198
三、对比朴素贝叶斯和 K 近邻模型 199
任务实训 200
实训二 优化驾驶行为分析模型 .200
项目总结 200
课后作业 201
项目七 新闻文本分析——聚类 .203
任务一 处理新闻文本数据204
任务描述 204
相关知识 204
一、文本数据处理 .204
二、特征提取 .207
任务实施 208
一、读取新闻文本数据 .208
二、分词和去停用词 .210
三、特征提取 . 211
任务实训 212
实训一 处理期刊论文文本数据 .212
任务二 构建新闻文本聚类模型 213
任务描述 213
相关知识 213
一、K-Means 213
二、DBSCAN .216
任务实施 219
一、构建 K-Means 模型 219
二、构建 DBSCAN 模型 .222
任务实训 223
实训二 构建期刊论文文本聚类模型 .223
项目总结 224
课后作业 224
项目八 中草药识别——神经网络226
任务一 处理中草药图像数据 227
任务描述 227
相关知识 227
一、读取、显示、保存图像数据 .227
二、图像缩放 .228
三、灰度化处理 .230
四、二值化处理 .231
任务实施 233
一、查看中草药图像数据 .233
二、图像缩放 .234
三、灰度化处理 .234
四、二值化处理 .235
任务实训 237
实训一 处理农作物种子图像数据 .237
任务二 构建中草药识别模型 238
任务描述 238
相关知识 238
任务实施 241
一、构建 BP 神经网络模型 241
二、评估模型 .242
任务实训 242
实训二 构建 BP 神经网络进行农作物种子预测 242
项目总结243
课后作业 243
项目九 电信运营商用户分析 245
任务一 处理电信运营商用户信息数据 246
任务描述 246
相关知识 246
任务实施 247
一、数据去重与降维 .247
二、合并数据 .248
三、处理缺失值与异常值 .253
任务实训 254
实训一 处理电信用户信息数据 .254
任务二 构建电信运营商用户分群模型
相关知识 255
任务实施 255
一、分析用户基本信息 .255
二、构建 K-Means 模型 265
任务实训 270
实训二 建立电信运营用户信息分群模型 .270
任务三 构建电信运营商用户流失预测模型 271
任务描述 271
相关知识 271
任务实施 271
一、特征值提取 .271
二、自定义模型构建函数 .273
三、构建逻辑回归模型 .275
四、构建决策树模型 .276
五、构建朴素贝叶斯模型 .276
六、选择最优模型 .277
任务实训 277
实训三 建立电信运营用户流失预测模型 .277
项目总结
附录 A NumPy 库 279
附录 B pandas 库 .281
附录 C Matplotlib 库 283
附录 D sklearn 库 .285
参考文献 .286
任务一 安装 Python2
任务描述 2
相关知识 2
一、初识数据挖掘与机器学习 .2
二、初识 Python .5
三、了解 Python 的 Anaconda 发行版 .6
任务实施 6
一、在 Windows 操作系统中安装 Anaconda 发行版 6
二、体验 Jupyter Notebook .9
任务二 安装 PyCharm 14
任务描述 14
相关知识 15
一、初识 PyCharm .15
二、PyCharm 中的输入与输出 .15
任务实施 16
一、安装 PyCharm .16
二、使用 PyCharm .21
三、建立一个 PyCharm 项目 23
项目总结 24
课后作业24
项目二 农产品信息可视化分析——NumPy、pandas 与 Matplotlib 库 26
任务一 分析农产品类型情况 27
任务描述 27
相关知识 27
一、创建数组对象 .27
二、数组基本操作 .31
任务实施 34
一、用水稻类型数量创建数组 .34
二、对品种数量进行排序 .34
三、分析水稻类型数量的占比情况 .35
任务实训 35
实训一 分析小麦类型数量 .35
任务二 处理农产品基本信息数据 36
任务描述 36
相关知识 36
一、数据读取与写入 .36
二、pandas 数据结构 .40
三、pandas 数据处理 .44
任务实施 56
一、读取农产品基本信息数据 .56
二、缺失值检测与处理 .56
三、异常值检测与处理 .57
四、重复值检测与处理 .58
五、存储数据 .59
任务实训 59
实训二 处理小麦基本信息数据 .59
任务三 分析农产品数量情况 60
任务描述 60
相关知识 60
一、基础语法和常用参数 .60
二、绘制基本图形 .64
任务实施 70
一、分析省级以上部门审定数量 .71
二、分析水稻品种数量 .72
三、分析各地审定水稻品种分布 .74
四、分析水稻品种数量发展趋势 .75
任务实训 77
实训三 分析小麦生长情况 .77
项目总结 78
课后作业 78
项目三 建筑工程混凝土抗压强度检测——线性回归 . 80
任务一 构建建筑工程混凝土抗压强度检测模型 81
任务描述 81
相关知识 81
任务实施 84
一、读取混凝土成分数据 .84
二、对自变量和因变量进行可视化 .85
三、构建一元线性回归检测模型 .86
四、对混凝土抗压强度进行检测 .86
五、对检测结果进行可视化 .87
六、构造一元线性回归方程 .88
任务实训 88
实训一 构建建筑物能效检测模型 .88
任务二 评估建筑工程混凝土抗压强度检测模型 89
任务描述 89
相关知识 89
任务实施 92
一、使用平均绝对误差指标评估模型 .92
二、使用均方误差指标评估模型 .92
三、使用可解释方差指标评估模型 .93
四、使用 R 方指标评估模型 .93
任务实训 93
实训二 评估建筑物能效检测模型 .93
任务三 优化建筑工程混凝土抗压强度检测模型 94
任务描述 94
相关知识 94
任务实施 97
一、构建多元线性回归检测模型 .97
二、对混凝土抗压强度进行检测 .98
三、对预测结果进行可视化 .98
四、构造多元线性回归方程 .99
五、评估多元线性回归检测模型 .99
任务实训 100
实训三 优化建筑物能效检测模型 .100
项目总结 101
课后作业101
项目四 电商平台运输行为预测——逻辑回归103
任务一 处理电商平台运输行为数据 104
任务描述 104
相关知识 104
一、哑变量处理 .105
二、离散化处理 .107
三、属性构造 . 110
任务实施 111
一、读取电商平台运输行为数据 . 111
二、哑变量处理 . 115
三、属性构造 . 115
任务实训 116
实训一 处理送货卡车运输行为数据 . 116
任务二 构建电商平台运输行为预测 117
任务描述 117
相关知识 117
任务实施 122
一、构建逻辑回归模型 .122
二、绘制运输预测结果柱形图 .124
任务实训 125
实训二 构建送货卡车运输行为预测模型 .125
任务三 评估与优化电商平台运输行为预测126
任务描述 126
相关知识 126
一、混淆矩阵、准确率与召回率 .126
二、ROC 曲线 129
三、样本平衡 .131
任务实施 134
一、评估电商平台运输行为预测 .134
二、利用样本平衡进行模型优化 .136
三、过采样后的模型效果 .137
任务实训 139
实训三 评估送货卡车运输行为预测模型 .139
项目总结 140
课后作业 140
项目五 加工厂玻璃类别识别——决策树、随机森林 143
任务一 处理玻璃成分数据 144
任务描述 144
相关知识 144
一、数据标准化 .144
二、数据降维 .148
任务实施 153
一、读取玻璃类别数据 .153
二、使用标准差标准化数据 .154
三、使用 PCA 进行数据降维 .155
任务实训 156
实训一 处理印刷品圆筒成分数据 156
任务二 构建加工厂玻璃类别识别模型 157
任务描述 157
相关知识 157
任务实施 159
一、导入开发库 .159
二、拆分训练集和测试集 .160
三、构建决策树模型 .160
四、评估决策树模型 .160
任务实训 161
实训二 构建印刷品圆筒成分识别模型 .161
任务三 评估与优化加工厂玻璃类别识别模型 161
任务描述 161
相关知识 162
一、K 折交叉验证与 GridSearch 网络搜索 .162
二、随机森林 .165
任务实施 167
一、使用 GridSearch 网络搜索进行模型调优 .167
二、构建随机森林模型 .169
任务实训 171
实训三 优化印刷品圆筒成分识别模型 .171
项目总结 172
课后作业 172
项目六 运输车辆安全驾驶行为分析——朴素贝叶斯、K 近邻 174
任务一 构建运输车辆安全驾驶行为分析模型 175
任务描述 175
相关知识 175
一、高斯朴素贝叶斯 .176
二、多项式分布朴素贝叶斯 .177
任务实施 178
一、读取并探索驾驶行为数据 .178
二、处理驾驶行为数据 .182
三、构建高斯朴素贝叶斯模型 .186
四、构建多项式分布朴素贝叶斯模型 .189
任务实训 192
实训一 构建驾驶行为分析模型 .192
任务二 优化运输车辆安全驾驶行为分析模型 � 193
任务描述 193
相关知识 193
一、K 近邻 .193
二、对比分析法 .196
任务实施 197
一、构建 K 近邻模型 197
二、评估 K 近邻模型 198
三、对比朴素贝叶斯和 K 近邻模型 199
任务实训 200
实训二 优化驾驶行为分析模型 .200
项目总结 200
课后作业 201
项目七 新闻文本分析——聚类 .203
任务一 处理新闻文本数据204
任务描述 204
相关知识 204
一、文本数据处理 .204
二、特征提取 .207
任务实施 208
一、读取新闻文本数据 .208
二、分词和去停用词 .210
三、特征提取 . 211
任务实训 212
实训一 处理期刊论文文本数据 .212
任务二 构建新闻文本聚类模型 213
任务描述 213
相关知识 213
一、K-Means 213
二、DBSCAN .216
任务实施 219
一、构建 K-Means 模型 219
二、构建 DBSCAN 模型 .222
任务实训 223
实训二 构建期刊论文文本聚类模型 .223
项目总结 224
课后作业 224
项目八 中草药识别——神经网络226
任务一 处理中草药图像数据 227
任务描述 227
相关知识 227
一、读取、显示、保存图像数据 .227
二、图像缩放 .228
三、灰度化处理 .230
四、二值化处理 .231
任务实施 233
一、查看中草药图像数据 .233
二、图像缩放 .234
三、灰度化处理 .234
四、二值化处理 .235
任务实训 237
实训一 处理农作物种子图像数据 .237
任务二 构建中草药识别模型 238
任务描述 238
相关知识 238
任务实施 241
一、构建 BP 神经网络模型 241
二、评估模型 .242
任务实训 242
实训二 构建 BP 神经网络进行农作物种子预测 242
项目总结243
课后作业 243
项目九 电信运营商用户分析 245
任务一 处理电信运营商用户信息数据 246
任务描述 246
相关知识 246
任务实施 247
一、数据去重与降维 .247
二、合并数据 .248
三、处理缺失值与异常值 .253
任务实训 254
实训一 处理电信用户信息数据 .254
任务二 构建电信运营商用户分群模型
相关知识 255
任务实施 255
一、分析用户基本信息 .255
二、构建 K-Means 模型 265
任务实训 270
实训二 建立电信运营用户信息分群模型 .270
任务三 构建电信运营商用户流失预测模型 271
任务描述 271
相关知识 271
任务实施 271
一、特征值提取 .271
二、自定义模型构建函数 .273
三、构建逻辑回归模型 .275
四、构建决策树模型 .276
五、构建朴素贝叶斯模型 .276
六、选择最优模型 .277
任务实训 277
实训三 建立电信运营用户流失预测模型 .277
项目总结
附录 A NumPy 库 279
附录 B pandas 库 .281
附录 C Matplotlib 库 283
附录 D sklearn 库 .285
参考文献 .286