机器学习从入门到精通
¥45.00定价
作者: 陈怡然
出版时间:2020-08
出版社:西安电子科技大学出版社
- 西安电子科技大学出版社
- 9787560656397
- 1版
- 349551
- 平装
- 短16开
- 2020-08
- 427
- 344
- TP181
- 自动化技术、计算技术
内容简介
随着人工智能时代的到来,它对机器学习发展的影响日益剧增。从基于符号主义的机器学习发展到基于数据统计的机器学习,反映了机器学习从纯粹的理论研究和模型研究发展到以解决现实生活中实际问题为目的的应用研究,这是科学研究的一种进步。目前市面上有机器学习的纯理论书籍,也有具体操作实践的书籍,然而理论与实践相结合的书籍却少之又少。本书从理论入门到实际操练,全面而详细地介绍了机器学习的各个分支以及其实现,实现了机器学习从理论到实践的完美结合。
本书共分三篇,分别为铸刀篇、招式篇和实战篇。其中,铸刀篇主要介绍机器学习的基础知识及前期准备工作,为后面的学习打下良好的基础;招式篇以基础应用为支撑,主要介绍相关机器学习的主要应用招式;实战篇通过房价预测与人脸识别两个实际案例,覆盖了典型的回归与分类、结构化数据与非结构化数据的机器学习,进行机器学习的再次升华。此外,附录中简要介绍了TensorFlow框架的主要函数,便于读者随时查找。
本书可作为高校机器学习、数据挖掘及相关课程的教材或教学参考书,也可作为人工智能、大数据领域从业者的自学参考书。
本书共分三篇,分别为铸刀篇、招式篇和实战篇。其中,铸刀篇主要介绍机器学习的基础知识及前期准备工作,为后面的学习打下良好的基础;招式篇以基础应用为支撑,主要介绍相关机器学习的主要应用招式;实战篇通过房价预测与人脸识别两个实际案例,覆盖了典型的回归与分类、结构化数据与非结构化数据的机器学习,进行机器学习的再次升华。此外,附录中简要介绍了TensorFlow框架的主要函数,便于读者随时查找。
本书可作为高校机器学习、数据挖掘及相关课程的教材或教学参考书,也可作为人工智能、大数据领域从业者的自学参考书。
目录
第1章 初识机器学习 3
本章导读 3
知识要点 3
1.1 什么是机器学习 4
1.2 机器学习的工作流程 5
1.2.1 准备数据集 5
1.2.2 进行模型训练 7
1.2.3 模型评估 9
1.3 假设空间和归纳偏好 11
1.3.1 假设空间 12
1.3.2 归纳偏好 13
1.4 发展历程 14
1.4.1 决策树的命运变迁 15
1.4.2 神经网络的众多名称和命运变迁 16
1.5 应用现状 17
新手问答 19
本章小结 19
第2章 机器学习之刃TensorFlow 20
本章导读 20
知识要点 20
2.1 认识TensorFlow 21
2.2 TensorFlow的安装与工作原理 21
2.2.1 TensorFlow安装图解 21
2.2.2 TensorFlow的工作原理 24
2.2.3 什么是计算图 25
2.2.4 什么是会话 28
2.2.5 什么是张量 30
2.3 常量、变量和占位符 34
2.3.1 基本概念 35
2.3.2 基本运算 37
2.4 操作矩阵 38
2.4.1 矩阵的创建 38
2.4.2 矩阵的运算 39
2.4.3 矩阵的分解和特征值 40
2.5 使用激活函数 41
2.5.1 什么是激活函数 41
2.5.2 Sigmoid函数 41
2.5.3 Tanh函数 42
2.5.4 Relu函数 42
2.5.5 Softplus函数 42
2.6 读取数据源 43
2.6.1 通过Excel表导入数据集 43
2.6.2 通过CSV文件导入数据集 43
2.6.3 通过库中自带的数据集导入
数据集 44
2.6.4 导入图片数据集 44
2.6.5 将数据集通过URL自动进行下载 44
新手问答 46
牛刀小试 46
本章小结 50
第3章 数据分析基础 51
本章导读 51
知识要点 51
3.1 认识Numpy和Pandas 52
3.2 Numpy的基本使用 52
3.2.1 创建ndarray数组 53
3.2.2 运用ndarray数组 55
3.3 Pandas的基本使用 58
3.3.1 Series数据结构 59
3.3.2 DataFrame数据结构 62
新手问答 70
牛刀小试 70
本章小结 73
第4章 模型的评价与评估 74
本章导读 74
知识要点 74
4.1 损失函数 75
4.1.1 最小二乘 76
4.1.2 梯度下降 76
4.2 经验误差与拟合 77
4.3 数据集划分 78
4.3.1 留出法 78
4.3.2 交叉验证法 79
4.3.3 自助法 82
4.4 调参与最终模型 83
4.5 模型性能度量 84
4.5.1 均方误差 85
4.5.2 错误率与精确度 85
4.5.3 准确度、灵敏度与F1 86
4.5.4 受试者工作特征与AUC 88
4.5.5 代价敏感错误率与代价曲线 89
4.6 比较检验 90
4.6.1 假设检验 90
4.6.2 麦克尼马尔变化显著性检验 91
4.7 偏差与方差 91
4.8 不同学习模型下的模型评价与评估 92
4.8.1 不同学习模型下的数据集划分 92
4.8.2 不同学习模型下的模型评价 92
新手问答 93
牛刀小试 93
本章小结 95
第5章 数据准备 96
本章导读 96
知识要点 96
5.1 数据探索 99
5.1.1 数据质量分析 99
5.1.2 数据特征分析 105
5.2 数据预处理 110
5.2.1 数据清洗 110
5.2.2 数据集成 113
5.2.3 数据变换 113
5.2.4 数据规约 115
新手问答 116
牛刀小试 116
本章小结 118
第二篇 招 式
第6章 回归 121
本章导读 121
知识要点 121
6.1 回归分析算法的基础知识 122
6.1.1 回归与拟合 122
6.1.2 汽车油耗数据集准备 123
6.1.3 在Excel中添加回归趋势线预测 125
6.2 线性回归 127
6.2.1 线性回归的基本原理 127
6.2.2 线性回归模型实现之最小二乘法 128
6.2.3 线性回归模型实现之梯度下降法 131
6.2.4 线性回归模型在油耗预测中的
应用 134
6.3 逻辑回归 141
6.3.1 逻辑回归的基本原理 141
6.3.2 逻辑回归与线性回归的区别 142
6.3.3 逻辑回归模型实现 143
6.4 戴明回归 144
6.4.1 戴明回归的基本原理 144
6.4.2 戴明回归的模型实现 144
6.5 回归模型的评估 145
6.5.1 平均误差 145
6.5.2 平均绝对误差 145
6.5.3 解释回归模型的方差 146
6.5.4 R2确定系数 146
新手问答 147
牛刀小试 148
本章小结 153
第7章 分类 154
本章导读 154
知识要点 154
7.1 分类算法的基础知识 155
7.1.1 分类的基本思想 156
7.1.2 贷款违约风险评估数据准备 157
7.2 决策树分类器 159
7.2.1 决策树模型原理 159
7.2.2 信息增益 160
7.2.3 ID3决策树原理 161
7.2.4 ID3决策树模型的实现 163
7.2.5 决策树模型的可视化 166
7.2.6 CART决策树原理 168
7.2.7 CART决策树模型的实现 171
7.3 朴素贝叶斯分类器 172
7.3.1 预测贷款违约数据准备 173
7.3.2 条件概率与贝叶斯公式 173
7.3.3 极大似然估计 174
7.3.4 高斯贝叶斯模型的实现 175
7.3.5 多项式贝叶斯模型的实现 176
7.3.6 伯努利贝叶斯模型的实现 177
7.4 分类模型的评估 177
7.4.1 混淆矩阵 178
7.4.2 精确度与敏感度 179
7.4.3 分类报告 182
新手问答 184
牛刀小试 184
本章小结 193
第8章 聚类 194
本章导读 194
知识要点 194
8.1 聚类分析的基础知识 195
8.1.1 聚类分析的基本思想 195
8.1.2 聚类分析的距离计算 196
8.1.3 基站商圈数据准备 198
8.2 K-means算法 202
8.2.1 K-means算法原理 202
8.2.2 K-means算法的应用 205
8.3 层次聚类 207
8.3.1 层次聚类的原理 207
8.3.2 层次聚类算法的应用 209
8.4 密度聚类 211
8.4.1 密度聚类原理 211
8.4.2 密度聚类算法的应用 212
8.5 聚类分析模型评估 213
8.5.1 外部度量 213
8.5.2 内部评估 215
新手问答 216
牛刀小试 217
本章小结 221
第9章 支持向量机 222
本章导读 222
知识要点 222
9.1 支持向量机的基础知识 223
9.1.1 支持向量机概述 223
9.1.2 鸢尾花数据准备 224
9.2 支持向量机的分类 227
9.2.1 支持向量机分类基础 228
9.2.2 SVM分类算法库 228
9.2.3 线性可分问题下的支持向量机
分类原理 231
9.2.4 广义线性的支持向量机分类原理 233
9.2.5 非线性的支持向量机分类原理 235
9.3 支持向量机回归机 237
9.3.1 支持向量机回归机概述 237
9.3.2 SVM回归算法库 238
9.3.3 支持向量机回归机的应用 239
9.4 支持向量机模型评估 240
9.4.1 R2系数 240
9.4.2 建立模型准确度评测 240
9.4.3 混淆矩阵 241
9.4.4 建立模型分类报告 241
新手问答 242
牛刀小试 242
本章小结 243
第10章 机器的大脑“神经网络” 244
本章导读 244
知识要点 244
10.1 神经网络的相关知识 246
10.1.1 神经网络的历史 246
10.1.2 神经元模型 247
10.1.3 激活函数 248
10.2 神经网络 250
10.2.1 神经网络的基本概念 250
10.2.2 单层神经网络的原理 251
10.2.3 隐藏层 252
10.2.4 多层感知网络的原理 253
10.3 BP神经网络 254
10.3.1 BP神经网络的基本原理 254
10.3.2 算法演绎推导 255
10.3.3 BP神经网络的实现 258
新手问答 262
牛刀小试 263
本章小结 269
第11章 卷积神经网络 270
本章导读 270
知识要点 270
11.1 卷积神经网络的基本概念 271
11.1.1 卷积神经网络基本原理 271
11.1.2 卷积运算原理 272
11.1.3 激活层 276
11.1.4 池化 276
11.2 卷积神经网络的实现 277
11.2.1 需求背景介绍 277
11.2.2 数据准备 278
11.2.3 模型建立 279
11.2.4 模型的训练和评估 281
11.2.5 模型优化 282
新手问答 286
牛刀小试 286
本章小结 288
第三篇 实 战
第12章 让机器预测房价 291
本章导读 291
知识要点 291
12.1 目标与计划 292
12.1.1 房价数据的特征和维度 292
12.1.2 制订机器学习计划 293
12.2 获取数据 293
12.2.1 获取原始数据 293
12.2.2 数据探索 294
12.2.3 数据清洗 296
12.2.4 训练/测试集划分 301
12.2.5 数据变换 301
12.3 建立线性回归模型 302
12.4 模型评估 303
12.4.1 训练集评估 304
12.4.2 测试集评估 305
12.5 项目结论 307
本章小结 307
第13章 人脸识别系统的设计与实现 308
本章导读 308
知识要点 308
13.1 目标与计划 309
13.1.1 目标图像集的大小和类别 309
13.1.2 机器学习模型的选择 310
13.1.3 制订机器学习计划 310
13.2 获取数据集 310
13.2.1 下载数据集 310
13.2.2 数据的清洗和准备 310
13.2.3 划分训练集与测试集 313
13.3 建立图像识别模型 314
13.3.1 确定损失函数 314
13.3.2 卷积层的设置 315
13.3.3 激活函数的选择 317
13.3.4 池化的类型 317
13.3.5 模型的训练 317
13.4 模型评估 317
13.4.1 中间结果的可视化 317
13.4.2 收敛的判定 318
13.4.3 交叉验证 318
本章小结 320
附录 TensorFlow常用函数 321
参考文献 332
本章导读 3
知识要点 3
1.1 什么是机器学习 4
1.2 机器学习的工作流程 5
1.2.1 准备数据集 5
1.2.2 进行模型训练 7
1.2.3 模型评估 9
1.3 假设空间和归纳偏好 11
1.3.1 假设空间 12
1.3.2 归纳偏好 13
1.4 发展历程 14
1.4.1 决策树的命运变迁 15
1.4.2 神经网络的众多名称和命运变迁 16
1.5 应用现状 17
新手问答 19
本章小结 19
第2章 机器学习之刃TensorFlow 20
本章导读 20
知识要点 20
2.1 认识TensorFlow 21
2.2 TensorFlow的安装与工作原理 21
2.2.1 TensorFlow安装图解 21
2.2.2 TensorFlow的工作原理 24
2.2.3 什么是计算图 25
2.2.4 什么是会话 28
2.2.5 什么是张量 30
2.3 常量、变量和占位符 34
2.3.1 基本概念 35
2.3.2 基本运算 37
2.4 操作矩阵 38
2.4.1 矩阵的创建 38
2.4.2 矩阵的运算 39
2.4.3 矩阵的分解和特征值 40
2.5 使用激活函数 41
2.5.1 什么是激活函数 41
2.5.2 Sigmoid函数 41
2.5.3 Tanh函数 42
2.5.4 Relu函数 42
2.5.5 Softplus函数 42
2.6 读取数据源 43
2.6.1 通过Excel表导入数据集 43
2.6.2 通过CSV文件导入数据集 43
2.6.3 通过库中自带的数据集导入
数据集 44
2.6.4 导入图片数据集 44
2.6.5 将数据集通过URL自动进行下载 44
新手问答 46
牛刀小试 46
本章小结 50
第3章 数据分析基础 51
本章导读 51
知识要点 51
3.1 认识Numpy和Pandas 52
3.2 Numpy的基本使用 52
3.2.1 创建ndarray数组 53
3.2.2 运用ndarray数组 55
3.3 Pandas的基本使用 58
3.3.1 Series数据结构 59
3.3.2 DataFrame数据结构 62
新手问答 70
牛刀小试 70
本章小结 73
第4章 模型的评价与评估 74
本章导读 74
知识要点 74
4.1 损失函数 75
4.1.1 最小二乘 76
4.1.2 梯度下降 76
4.2 经验误差与拟合 77
4.3 数据集划分 78
4.3.1 留出法 78
4.3.2 交叉验证法 79
4.3.3 自助法 82
4.4 调参与最终模型 83
4.5 模型性能度量 84
4.5.1 均方误差 85
4.5.2 错误率与精确度 85
4.5.3 准确度、灵敏度与F1 86
4.5.4 受试者工作特征与AUC 88
4.5.5 代价敏感错误率与代价曲线 89
4.6 比较检验 90
4.6.1 假设检验 90
4.6.2 麦克尼马尔变化显著性检验 91
4.7 偏差与方差 91
4.8 不同学习模型下的模型评价与评估 92
4.8.1 不同学习模型下的数据集划分 92
4.8.2 不同学习模型下的模型评价 92
新手问答 93
牛刀小试 93
本章小结 95
第5章 数据准备 96
本章导读 96
知识要点 96
5.1 数据探索 99
5.1.1 数据质量分析 99
5.1.2 数据特征分析 105
5.2 数据预处理 110
5.2.1 数据清洗 110
5.2.2 数据集成 113
5.2.3 数据变换 113
5.2.4 数据规约 115
新手问答 116
牛刀小试 116
本章小结 118
第二篇 招 式
第6章 回归 121
本章导读 121
知识要点 121
6.1 回归分析算法的基础知识 122
6.1.1 回归与拟合 122
6.1.2 汽车油耗数据集准备 123
6.1.3 在Excel中添加回归趋势线预测 125
6.2 线性回归 127
6.2.1 线性回归的基本原理 127
6.2.2 线性回归模型实现之最小二乘法 128
6.2.3 线性回归模型实现之梯度下降法 131
6.2.4 线性回归模型在油耗预测中的
应用 134
6.3 逻辑回归 141
6.3.1 逻辑回归的基本原理 141
6.3.2 逻辑回归与线性回归的区别 142
6.3.3 逻辑回归模型实现 143
6.4 戴明回归 144
6.4.1 戴明回归的基本原理 144
6.4.2 戴明回归的模型实现 144
6.5 回归模型的评估 145
6.5.1 平均误差 145
6.5.2 平均绝对误差 145
6.5.3 解释回归模型的方差 146
6.5.4 R2确定系数 146
新手问答 147
牛刀小试 148
本章小结 153
第7章 分类 154
本章导读 154
知识要点 154
7.1 分类算法的基础知识 155
7.1.1 分类的基本思想 156
7.1.2 贷款违约风险评估数据准备 157
7.2 决策树分类器 159
7.2.1 决策树模型原理 159
7.2.2 信息增益 160
7.2.3 ID3决策树原理 161
7.2.4 ID3决策树模型的实现 163
7.2.5 决策树模型的可视化 166
7.2.6 CART决策树原理 168
7.2.7 CART决策树模型的实现 171
7.3 朴素贝叶斯分类器 172
7.3.1 预测贷款违约数据准备 173
7.3.2 条件概率与贝叶斯公式 173
7.3.3 极大似然估计 174
7.3.4 高斯贝叶斯模型的实现 175
7.3.5 多项式贝叶斯模型的实现 176
7.3.6 伯努利贝叶斯模型的实现 177
7.4 分类模型的评估 177
7.4.1 混淆矩阵 178
7.4.2 精确度与敏感度 179
7.4.3 分类报告 182
新手问答 184
牛刀小试 184
本章小结 193
第8章 聚类 194
本章导读 194
知识要点 194
8.1 聚类分析的基础知识 195
8.1.1 聚类分析的基本思想 195
8.1.2 聚类分析的距离计算 196
8.1.3 基站商圈数据准备 198
8.2 K-means算法 202
8.2.1 K-means算法原理 202
8.2.2 K-means算法的应用 205
8.3 层次聚类 207
8.3.1 层次聚类的原理 207
8.3.2 层次聚类算法的应用 209
8.4 密度聚类 211
8.4.1 密度聚类原理 211
8.4.2 密度聚类算法的应用 212
8.5 聚类分析模型评估 213
8.5.1 外部度量 213
8.5.2 内部评估 215
新手问答 216
牛刀小试 217
本章小结 221
第9章 支持向量机 222
本章导读 222
知识要点 222
9.1 支持向量机的基础知识 223
9.1.1 支持向量机概述 223
9.1.2 鸢尾花数据准备 224
9.2 支持向量机的分类 227
9.2.1 支持向量机分类基础 228
9.2.2 SVM分类算法库 228
9.2.3 线性可分问题下的支持向量机
分类原理 231
9.2.4 广义线性的支持向量机分类原理 233
9.2.5 非线性的支持向量机分类原理 235
9.3 支持向量机回归机 237
9.3.1 支持向量机回归机概述 237
9.3.2 SVM回归算法库 238
9.3.3 支持向量机回归机的应用 239
9.4 支持向量机模型评估 240
9.4.1 R2系数 240
9.4.2 建立模型准确度评测 240
9.4.3 混淆矩阵 241
9.4.4 建立模型分类报告 241
新手问答 242
牛刀小试 242
本章小结 243
第10章 机器的大脑“神经网络” 244
本章导读 244
知识要点 244
10.1 神经网络的相关知识 246
10.1.1 神经网络的历史 246
10.1.2 神经元模型 247
10.1.3 激活函数 248
10.2 神经网络 250
10.2.1 神经网络的基本概念 250
10.2.2 单层神经网络的原理 251
10.2.3 隐藏层 252
10.2.4 多层感知网络的原理 253
10.3 BP神经网络 254
10.3.1 BP神经网络的基本原理 254
10.3.2 算法演绎推导 255
10.3.3 BP神经网络的实现 258
新手问答 262
牛刀小试 263
本章小结 269
第11章 卷积神经网络 270
本章导读 270
知识要点 270
11.1 卷积神经网络的基本概念 271
11.1.1 卷积神经网络基本原理 271
11.1.2 卷积运算原理 272
11.1.3 激活层 276
11.1.4 池化 276
11.2 卷积神经网络的实现 277
11.2.1 需求背景介绍 277
11.2.2 数据准备 278
11.2.3 模型建立 279
11.2.4 模型的训练和评估 281
11.2.5 模型优化 282
新手问答 286
牛刀小试 286
本章小结 288
第三篇 实 战
第12章 让机器预测房价 291
本章导读 291
知识要点 291
12.1 目标与计划 292
12.1.1 房价数据的特征和维度 292
12.1.2 制订机器学习计划 293
12.2 获取数据 293
12.2.1 获取原始数据 293
12.2.2 数据探索 294
12.2.3 数据清洗 296
12.2.4 训练/测试集划分 301
12.2.5 数据变换 301
12.3 建立线性回归模型 302
12.4 模型评估 303
12.4.1 训练集评估 304
12.4.2 测试集评估 305
12.5 项目结论 307
本章小结 307
第13章 人脸识别系统的设计与实现 308
本章导读 308
知识要点 308
13.1 目标与计划 309
13.1.1 目标图像集的大小和类别 309
13.1.2 机器学习模型的选择 310
13.1.3 制订机器学习计划 310
13.2 获取数据集 310
13.2.1 下载数据集 310
13.2.2 数据的清洗和准备 310
13.2.3 划分训练集与测试集 313
13.3 建立图像识别模型 314
13.3.1 确定损失函数 314
13.3.2 卷积层的设置 315
13.3.3 激活函数的选择 317
13.3.4 池化的类型 317
13.3.5 模型的训练 317
13.4 模型评估 317
13.4.1 中间结果的可视化 317
13.4.2 收敛的判定 318
13.4.3 交叉验证 318
本章小结 320
附录 TensorFlow常用函数 321
参考文献 332