- 中国铁道出版社
- 9787113310516
- 1-1
- 521554
- 68260581-1
- 16开
- 2024-03
- 工学
- 计算机类
- 电子与信息大类
- 计算机类
- 计算机类
- 高职
作者简介
内容简介
本书以项目为导向,全面介绍数据挖掘与机器学习的流程和Python数据分析库的应用,详细讲解利用Python解决实际问题的方法。全书共分九个项目。项目一介绍搭建数据挖掘与机器学习的编程环境;项目二利用农产品信息可视化分析项目介绍NumPy、pandas与Matplotlib库的应用;项目三至项目八利用真实项目,介绍线性回归、逻辑回归、决策树、随机森林、朴素贝叶斯、K近邻、聚类分析、神经网络;项目九结合之前所学的数据挖掘与机器学习技术,进行企业综合案例数据分析。各项目都包含了实训或课后作业,通过练习和操作实践,帮助读者巩固所学的内容。
本书适合作为高等职业院校大数据技术、人工智能技术应用、软件技术等相关专业的教材,也可作为大数据技术爱好者的自学用书。
本书适合作为高等职业院校大数据技术、人工智能技术应用、软件技术等相关专业的教材,也可作为大数据技术爱好者的自学用书。
目录
项目一搭建数据挖掘与机器学习编程环境1
任务一 安装Python2
任务描述2
相关知识2
一、初识数据挖掘与机器学习.2
二、初识Python.5
三、了解Python的Anaconda发行版.6
任务实施6
一、在Windows操作系统中安装Anaconda发行版6
二、体验JupyterNotebook.9
任务二 安装PyCharm14
任务描述14
相关知识15
一、初识PyCharm.15
二、PyCharm中的输入与输出.15
任务实施16
一、安装PyCharm.16
二、使用PyCharm.21
三、建立一个PyCharm项目23
项目总结24
课后作业24
项目二农产品信息可视化分析——NumPy、pandas与Matplotlib库26
任务一 分析农产品类型情况27
任务描述27
相关知识27
一、创建数组对象.27
二、数组基本操作.31
任务实施34
一、用水稻类型数量创建数组.34
二、对品种数量进行排序.34
三、分析水稻类型数量的占比情况.35
任务实训35
实训一分析小麦类型数量.35
任务二 处理农产品基本信息数据 36
任务描述36
相关知识36
一、数据读取与写入.36
二、pandas数据结构.40
三、pandas数据处理.44
任务实施56
一、读取农产品基本信息数据.56
二、缺失值检测与处理.56
三、异常值检测与处理.57
四、重复值检测与处理.58
五、存储数据.59
任务实训59
实训二处理小麦基本信息数据.59
任务三 分析农产品数量情况60
任务描述60
相关知识60
一、基础语法和常用参数.60
二、绘制基本图形.64
任务实施70
一、分析省级以上部门审定数量.71
二、分析水稻品种数量.72
三、分析各地审定水稻品种分布.74
四、分析水稻品种数量发展趋势.75
任务实训77
实训三分析小麦生长情况.77
项目总结 78
课后作业78
项目三建筑工程混凝土抗压强度检测——线性回归.80
任务一 构建建筑工程混凝土抗压强度检测模型 81
任务描述81
相关知识81
任务实施84
一、读取混凝土成分数据.84
二、对自变量和因变量进行可视化.85
三、构建一元线性回归检测模型.86
四、对混凝土抗压强度进行检测.86
五、对检测结果进行可视化.87
六、构造一元线性回归方程.88
任务实训88
实训一构建建筑物能效检测模型.88
任务二 评估建筑工程混凝土抗压强度检测模型 89
任务描述89
相关知识89
任务实施92
一、使用平均绝对误差指标评估模型.92
二、使用均方误差指标评估模型.92
三、使用可解释方差指标评估模型.93
四、使用R方指标评估模型.93
任务实训93
实训二评估建筑物能效检测模型.93
任务三 优化建筑工程混凝土抗压强度检测模型 94
任务描述94
相关知识94
任务实施97
一、构建多元线性回归检测模型.97
二、对混凝土抗压强度进行检测.98
三、对预测结果进行可视化.98
四、构造多元线性回归方程.99
五、评估多元线性回归检测模型.99
任务实训100
实训三优化建筑物能效检测模型.100
项目总结101
课后作业101
项目四电商平台运输行为预测——逻辑回归103
任务一 处理电商平台运输行为数据 104
任务描述104
相关知识104
一、哑变量处理.105
二、离散化处理.107
三、属性构造.110
任务实施111
一、读取电商平台运输行为数据.111
二、哑变量处理.115
三、属性构造.115
任务实训116
实训一处理送货卡车运输行为数据.116
任务二 构建电商平台运输行为预测 117
任务描述117
相关知识117
任务实施122
一、构建逻辑回归模型.122
二、绘制运输预测结果柱形图.124
任务实训125
实训二构建送货卡车运输行为预测模型.125
任务三 评估与优化电商平台运输行为预测126
任务描述126
相关知识126
一、混淆矩阵、准确率与召回率.126
二、ROC曲线129
三、样本平衡.131
任务实施134
一、评估电商平台运输行为预测.134
二、利用样本平衡进行模型优化.136
三、过采样后的模型效果.137
任务实训139
实训三评估送货卡车运输行为预测模型.139
项目总结 140
课后作业 140
项目五加工厂玻璃类别识别——决策树、随机森林143
任务一 处理玻璃成分数据 144
任务描述144
相关知识144
一、数据标准化.144
二、数据降维.148
任务实施153
一、读取玻璃类别数据.153
二、使用标准差标准化数据.154
三、使用PCA进行数据降维.155
任务实训156
实训一处理印刷品圆筒成分数据156
任务二 构建加工厂玻璃类别识别模型157
任务描述157
相关知识157
任务实施159
一、导入开发库.159
二、拆分训练集和测试集.160
三、构建决策树模型.160
四、评估决策树模型.160
任务实训161
实训二构建印刷品圆筒成分识别模型.161
任务三 评估与优化加工厂玻璃类别识别模型161
任务描述161
相关知识162
一、K折交叉验证与GridSearch网络搜索.162
二、随机森林.165
任务实施167
一、使用GridSearch网络搜索进行模型调优.167
二、构建随机森林模型.169
任务实训171
实训三优化印刷品圆筒成分识别模型.171
项目总结 172
课后作业 172
项目六运输车辆安全驾驶行为分析——朴素贝叶斯、K近邻174
任务一 构建运输车辆安全驾驶行为分析模型175
任务描述175
相关知识175
一、高斯朴素贝叶斯.176
二、多项式分布朴素贝叶斯.177
任务实施178
一、读取并探索驾驶行为数据.178
二、处理驾驶行为数据.182
三、构建高斯朴素贝叶斯模型.186
四、构建多项式分布朴素贝叶斯模型.189
任务实训192
实训一构建驾驶行为分析模型.192
任务二 优化运输车辆安全驾驶行为分析模型 �193
任务描述193
相关知识193
一、K近邻.193
二、对比分析法.196
任务实施197
一、构建K近邻模型197
二、评估K近邻模型198
三、对比朴素贝叶斯和K近邻模型199
任务实训200
实训二优化驾驶行为分析模型.200
项目总结 200
课后作业 201
项目七新闻文本分析——聚类.203
任务一 处理新闻文本数据204
任务描述204
相关知识204
一、文本数据处理.204
二、特征提取.207
任务实施208
一、读取新闻文本数据.208
二、分词和去停用词.210
三、特征提取.211
任务实训212
实训一处理期刊论文文本数据.212
任务二 构建新闻文本聚类模型 213
任务描述213
相关知识213
一、K-Means213
二、DBSCAN.216
任务实施219
一、构建K-Means模型219
二、构建DBSCAN模型.222
任务实训223
实训二构建期刊论文文本聚类模型.223
项目总结 224
课后作业224
项目八中草药识别——神经网络226
任务一 处理中草药图像数据 227
任务描述227
相关知识227
一、读取、显示、保存图像数据.227
二、图像缩放.228
三、灰度化处理.230
四、二值化处理.231
任务实施233
一、查看中草药图像数据.233
二、图像缩放.234
三、灰度化处理.234
四、二值化处理.235
任务实训237
实训一处理农作物种子图像数据.237
任务二 构建中草药识别模型238
任务描述238
相关知识238
任务实施241
一、构建BP神经网络模型241
二、评估模型.242
任务实训242
实训二构建BP神经网络进行农作物种子预测242
项目总结243
课后作业 243
项目九电信运营商用户分析245
任务一 处理电信运营商用户信息数据 246
任务描述246
相关知识246
任务实施247
一、数据去重与降维.247
二、合并数据.248
三、处理缺失值与异常值.253
任务实训254
实训一处理电信用户信息数据.254
任务二 构建电信运营商用户分群模型
相关知识255
任务实施255
一、分析用户基本信息.255
二、构建K-Means模型265
任务实训270
实训二建立电信运营用户信息分群模型.270
任务三构建电信运营商用户流失预测模型 271
任务描述271
相关知识271
任务实施271
一、特征值提取.271
二、自定义模型构建函数.273
三、构建逻辑回归模型.275
四、构建决策树模型.276
五、构建朴素贝叶斯模型.276
六、选择最优模型.277
任务实训277
实训三建立电信运营用户流失预测模型.277
项目总结
附录A NumPy库279
附录B pandas库.281
附录C Matplotlib库283
附录D sklearn库.285
参考文献.286
任务一 安装Python2
任务描述2
相关知识2
一、初识数据挖掘与机器学习.2
二、初识Python.5
三、了解Python的Anaconda发行版.6
任务实施6
一、在Windows操作系统中安装Anaconda发行版6
二、体验JupyterNotebook.9
任务二 安装PyCharm14
任务描述14
相关知识15
一、初识PyCharm.15
二、PyCharm中的输入与输出.15
任务实施16
一、安装PyCharm.16
二、使用PyCharm.21
三、建立一个PyCharm项目23
项目总结24
课后作业24
项目二农产品信息可视化分析——NumPy、pandas与Matplotlib库26
任务一 分析农产品类型情况27
任务描述27
相关知识27
一、创建数组对象.27
二、数组基本操作.31
任务实施34
一、用水稻类型数量创建数组.34
二、对品种数量进行排序.34
三、分析水稻类型数量的占比情况.35
任务实训35
实训一分析小麦类型数量.35
任务二 处理农产品基本信息数据 36
任务描述36
相关知识36
一、数据读取与写入.36
二、pandas数据结构.40
三、pandas数据处理.44
任务实施56
一、读取农产品基本信息数据.56
二、缺失值检测与处理.56
三、异常值检测与处理.57
四、重复值检测与处理.58
五、存储数据.59
任务实训59
实训二处理小麦基本信息数据.59
任务三 分析农产品数量情况60
任务描述60
相关知识60
一、基础语法和常用参数.60
二、绘制基本图形.64
任务实施70
一、分析省级以上部门审定数量.71
二、分析水稻品种数量.72
三、分析各地审定水稻品种分布.74
四、分析水稻品种数量发展趋势.75
任务实训77
实训三分析小麦生长情况.77
项目总结 78
课后作业78
项目三建筑工程混凝土抗压强度检测——线性回归.80
任务一 构建建筑工程混凝土抗压强度检测模型 81
任务描述81
相关知识81
任务实施84
一、读取混凝土成分数据.84
二、对自变量和因变量进行可视化.85
三、构建一元线性回归检测模型.86
四、对混凝土抗压强度进行检测.86
五、对检测结果进行可视化.87
六、构造一元线性回归方程.88
任务实训88
实训一构建建筑物能效检测模型.88
任务二 评估建筑工程混凝土抗压强度检测模型 89
任务描述89
相关知识89
任务实施92
一、使用平均绝对误差指标评估模型.92
二、使用均方误差指标评估模型.92
三、使用可解释方差指标评估模型.93
四、使用R方指标评估模型.93
任务实训93
实训二评估建筑物能效检测模型.93
任务三 优化建筑工程混凝土抗压强度检测模型 94
任务描述94
相关知识94
任务实施97
一、构建多元线性回归检测模型.97
二、对混凝土抗压强度进行检测.98
三、对预测结果进行可视化.98
四、构造多元线性回归方程.99
五、评估多元线性回归检测模型.99
任务实训100
实训三优化建筑物能效检测模型.100
项目总结101
课后作业101
项目四电商平台运输行为预测——逻辑回归103
任务一 处理电商平台运输行为数据 104
任务描述104
相关知识104
一、哑变量处理.105
二、离散化处理.107
三、属性构造.110
任务实施111
一、读取电商平台运输行为数据.111
二、哑变量处理.115
三、属性构造.115
任务实训116
实训一处理送货卡车运输行为数据.116
任务二 构建电商平台运输行为预测 117
任务描述117
相关知识117
任务实施122
一、构建逻辑回归模型.122
二、绘制运输预测结果柱形图.124
任务实训125
实训二构建送货卡车运输行为预测模型.125
任务三 评估与优化电商平台运输行为预测126
任务描述126
相关知识126
一、混淆矩阵、准确率与召回率.126
二、ROC曲线129
三、样本平衡.131
任务实施134
一、评估电商平台运输行为预测.134
二、利用样本平衡进行模型优化.136
三、过采样后的模型效果.137
任务实训139
实训三评估送货卡车运输行为预测模型.139
项目总结 140
课后作业 140
项目五加工厂玻璃类别识别——决策树、随机森林143
任务一 处理玻璃成分数据 144
任务描述144
相关知识144
一、数据标准化.144
二、数据降维.148
任务实施153
一、读取玻璃类别数据.153
二、使用标准差标准化数据.154
三、使用PCA进行数据降维.155
任务实训156
实训一处理印刷品圆筒成分数据156
任务二 构建加工厂玻璃类别识别模型157
任务描述157
相关知识157
任务实施159
一、导入开发库.159
二、拆分训练集和测试集.160
三、构建决策树模型.160
四、评估决策树模型.160
任务实训161
实训二构建印刷品圆筒成分识别模型.161
任务三 评估与优化加工厂玻璃类别识别模型161
任务描述161
相关知识162
一、K折交叉验证与GridSearch网络搜索.162
二、随机森林.165
任务实施167
一、使用GridSearch网络搜索进行模型调优.167
二、构建随机森林模型.169
任务实训171
实训三优化印刷品圆筒成分识别模型.171
项目总结 172
课后作业 172
项目六运输车辆安全驾驶行为分析——朴素贝叶斯、K近邻174
任务一 构建运输车辆安全驾驶行为分析模型175
任务描述175
相关知识175
一、高斯朴素贝叶斯.176
二、多项式分布朴素贝叶斯.177
任务实施178
一、读取并探索驾驶行为数据.178
二、处理驾驶行为数据.182
三、构建高斯朴素贝叶斯模型.186
四、构建多项式分布朴素贝叶斯模型.189
任务实训192
实训一构建驾驶行为分析模型.192
任务二 优化运输车辆安全驾驶行为分析模型 �193
任务描述193
相关知识193
一、K近邻.193
二、对比分析法.196
任务实施197
一、构建K近邻模型197
二、评估K近邻模型198
三、对比朴素贝叶斯和K近邻模型199
任务实训200
实训二优化驾驶行为分析模型.200
项目总结 200
课后作业 201
项目七新闻文本分析——聚类.203
任务一 处理新闻文本数据204
任务描述204
相关知识204
一、文本数据处理.204
二、特征提取.207
任务实施208
一、读取新闻文本数据.208
二、分词和去停用词.210
三、特征提取.211
任务实训212
实训一处理期刊论文文本数据.212
任务二 构建新闻文本聚类模型 213
任务描述213
相关知识213
一、K-Means213
二、DBSCAN.216
任务实施219
一、构建K-Means模型219
二、构建DBSCAN模型.222
任务实训223
实训二构建期刊论文文本聚类模型.223
项目总结 224
课后作业224
项目八中草药识别——神经网络226
任务一 处理中草药图像数据 227
任务描述227
相关知识227
一、读取、显示、保存图像数据.227
二、图像缩放.228
三、灰度化处理.230
四、二值化处理.231
任务实施233
一、查看中草药图像数据.233
二、图像缩放.234
三、灰度化处理.234
四、二值化处理.235
任务实训237
实训一处理农作物种子图像数据.237
任务二 构建中草药识别模型238
任务描述238
相关知识238
任务实施241
一、构建BP神经网络模型241
二、评估模型.242
任务实训242
实训二构建BP神经网络进行农作物种子预测242
项目总结243
课后作业 243
项目九电信运营商用户分析245
任务一 处理电信运营商用户信息数据 246
任务描述246
相关知识246
任务实施247
一、数据去重与降维.247
二、合并数据.248
三、处理缺失值与异常值.253
任务实训254
实训一处理电信用户信息数据.254
任务二 构建电信运营商用户分群模型
相关知识255
任务实施255
一、分析用户基本信息.255
二、构建K-Means模型265
任务实训270
实训二建立电信运营用户信息分群模型.270
任务三构建电信运营商用户流失预测模型 271
任务描述271
相关知识271
任务实施271
一、特征值提取.271
二、自定义模型构建函数.273
三、构建逻辑回归模型.275
四、构建决策树模型.276
五、构建朴素贝叶斯模型.276
六、选择最优模型.277
任务实训277
实训三建立电信运营用户流失预测模型.277
项目总结
附录A NumPy库279
附录B pandas库.281
附录C Matplotlib库283
附录D sklearn库.285
参考文献.286














