注册 登录 进入教材巡展
#

出版时间:2023-02

出版社:重庆大学电子音像出版社

以下为《数据挖掘与机器学习》的配套数字资源,这些资源在您购买图书后将免费附送给您:
  • 重庆大学电子音像出版社
  • 9787894466983
  • 1版
  • 468249
  • 64247141-1
  • 16开
  • 2023-02
  • 计算机类
  • 高职
内容简介
本书主要讲解了数据挖掘概述、Matplotlib可视化库、NumPy基础、NumPy运算、Pandas基础、Pandas进阶、Matplotlib的进阶-Seaborn、机器学习概述、分类算法与应用、回归算法与应用、集成学习算法与应用、无监督学习算法与应用、神经网络、推荐算法。通过本书的学习,学生能掌握数据挖掘与机器学习的知识和实际应用。
目录
目录
第1章 数据挖掘概述 1
1.1 数据挖掘发展简述 3
1.1.1 数据时代 3
1.1.2 数据分析的技术发展 4
1.2 数据挖掘概念 7
1.2.1 数据挖掘的定义与OLAP 7
1.2.2 数据挖掘与知识发现KDD 8
1.2.3 数据挖掘的交叉学科 11
1.3 数据挖掘的应用领域与面临的问题 13
1.3.1 电子商务 13
1.3.2 电信行业 14
1.3.3 金融行业 14
1.3.4 医疗行业 14
1.3.5 社会网络 15
1.3.6 数据挖掘应用的问题 15
1.4 数据挖掘的模式类型与过程 16
1.4.1 类/概念描述:特征和区分 16
1.4.2 回归(regression) 17
1.4.3 分类(classification) 18
1.4.4 预测(forecasting) 19
1.4.5 关联分析(association) 19
1.4.6 聚类分析(cluster) 20
1.4.7 异常检测(anomalydetection) 21
1.4.8 数据挖掘的过程 22
1.5 数据挖掘的数据类型 22
1.5.1 数据库 22
1.5.2 数据仓库数据 23
1.5.3 其他数据类型 25
1.6 数据挖掘研究方向 25
1.7 Jupyter Notebook安装与使用 26
1.7.1 Jupyter Notebook介绍 26
1.7.2 为什么使用Jupyter Notebook 27
1.7.3 Anaconda的安装(已安装Anaconda可以忽略) 28
1.7.4 Jupyter Notebook的使用 32
1.7.5 Jupyter Notebook中自动补全代码等相关功能拓展 36

第2章 Matplotlib可视化库 40
2.1 Matplotlib简介 42
2.2 Matplotlib基础 42
2.2.1 Matplotlib入门示例 42
2.2.2 Matplotlib三层结构 44
2.3 折线图(plot)与基础绘图功能 45
2.3.1 折线图绘制与保存图片 45
2.3.2 辅助显示层完善原始折线图 46
2.3.3 图像层完善原始折线图 50
2.3.4 多个坐标系显示-plt.subplots(面向对象的画图方法) 53
2.3.5 折线图的应用场景 55
2.4 常见图形绘制 56
2.4.1 常见图形种类及意义 56
2.4.2 散点图绘制 62
2.4.3 柱状图绘制 63
2.4.4 直方图绘制 65
2.4.5 饼图绘制 66

第3章 NumPy基础 69
3.1 Numpy简介 71
3.1.1 NumPy是什么 71
3.1.2 NumPy优势 72
3.2 NumPy Ndarray 对象 74
3.3 Numpy Ndarray的属性 76
3.4 NumPy Ndarray基本操作 82
3.4.1 生成数组的方法 82
3.4.2 数组的索引、切片 95
3.4.3 NumPy高级索引 97
3.4.4 形状修改 101
3.4.5 类型修改 102
3.4.6 数组的去重 104

第4章 NumPy运算 107
4.1 NumPy运算 109
4.1.1 逻辑运算 109
4.1.2 通用判断函数 109
4.1.3 np.where(三元运算符) 112
4.1.4 统计运算 116
4.1.5 NumPy数学函数 121
4.1.6 NumPy广播(Broadcast) 125
4.1.7 NumPy算术运算 128
4.1.8 NumPy排序 131
4.2 数学:矩阵 135
4.2.1 矩阵和向量 135
4.2.2 加法和标量乘法 136
4.2.3 矩阵向量乘法 136
4.2.4 矩阵乘法 137
4.2.5 矩阵乘法的性质 137
4.2.6 逆、转置 137
4.3 矩阵乘法运算 140
4.4 NumPy与Matplotlib结合 142
第5章 Pandas基础 146
5.1 Pandas的简介 148
5.2 Pandas的安装 149
5.3 Pandas数据结构 149
5.3.1 Series 150
5.3.2 DataFrame 156
5.4 Pandas快速入门 175
5.4.1 生成对象 175
5.4.2 查看数据 177
5.4.3 选择 179
5.4.4 赋值 184
5.4.5 缺失值 185
5.4.6 统计 186
5.4.7 运算 187
5.4.8 Apply 函数 188
5.4.9 字符串方法 188
5.4.10 分组(Grouping) 191
5.4.11 重塑(Reshaping) 193
5.4.12 时间序列(TimeSeries) 195
5.4.13 类别型(Categoricals) 197
5.4.14 可视化 199
5.4.15 数据输入输出 200

第6章 Pandas进阶 204
6.1 导包并准备数据 206
6.2 Head与Tail 206
6.3 属性与底层数据 207
6.4 加速操作 209
6.5 运算 210
6.5.1 匹配/广播机制 210
6.5.2 缺失值与填充缺失值操作 214
6.5.3 比较操作 215
6.5.4 布尔简化 216
6.5.5 比较对象是否等效 217
6.5.6 比较 array 型对象 218
6.5.7 合并重叠数据集 219
6.5.8 DataFrame 通用合并方法 220
6.6 描述性统计 220
6.6.1 数据描述describe 223
6.6.2 最大值与最小值对应的索引 226
6.6.3 值计数(直方图)与众数 227
6.6.4 离散化与分位数 228
6.7 函数应用 230
6.7.1 表级函数应用 230
6.7.2 行列级函数应用 232
6.7.3 聚合API 235
6.7.4 多函数聚合 236
6.7.5 用字典实现聚合 237
6.7.6 多种数据类型(Dtype) 238
6.7.7 自定义Describe 238
6.7.8 Transform API 239
6.7.9 多函数Transform 241
6.7.10 用字典执行transform操作 242
6.7.11 元素级函数应用 243
6.8 重置索引与更换标签 244
6.8.1 重置索引,并与其他对象对齐 246
6.8.2 用align对齐多个对象 247
6.8.3 重置索引填充的限制 251
6.8.4 去掉轴上的标签 252
6.8.5 重命名或映射标签 253
6.9 迭代 255
6.9.1 项目(items) 257
6.9.2 iterrows 257
6.9.3 itertuples 259
6.10 .dt访问器 259
6.11 矢量化字符串方法 263
6.12 排序 264
6.12.1 按索引排序 264
6.12.2 按值排序 265
6.12.3 按索引与值排序 266
6.12.4 搜索排序 267
6.12.5 最大值与最小值 268
6.12.6 用多层索引的列排序 270
6.13 复制 270
6.14 数据类型 270
6.14.1 默认值 274
6.14.2 向上转型 274
6.14.3 astype 275
6.14.4 对象转换 277
6.14.5 注意事项 281
6.15 基于dtype 选择列 282

第7章 Matplotlib的进阶-Seaborn 288
7.1 Seaborn简介 290
7.2 Seaborn的安装 291
7.3 风格设置 293
7.4 颜色设置 298
7.5 数据集 300
7.6 导包与导数据集 302
7.7 数值变量 302
7.7.1 单变量分布 302
7.7.2 多变量分布 307
7.7.3 关系型图表 314
7.7.4 回归分析 316
7.7.5 矩阵图 319
7.8 分类数据 321
7.8.1 细条图 321
7.8.2 分布图 324
7.8.3 统计(估计)图 326
7.8.4 figure-level分类绘图总接口 328

第8章 机器学习概述 331
8.1 机器学习简述 333
8.1.1 什么是机器学习 333
8.1.2 机器学习分类 333
8.2 机器学习的框架 334
8.2.1 数据的加载和分割 335
8.2.2 模型的选择 336
8.2.3 学习和预测 338
8.2.4 模型的评判 338
8.2.5 模型的保存 344
8.3 入门示例 344

第9章 分类算法与应用 347
9.1 KNN算法 349
9.1.1 K-近邻算法(KNN)概念 349
9.1.2 原理分析 350
9.1.3 K-近邻算法优缺点 352
9.1.4 K-近邻算法API 352
9.1.5 距离度量 353
9.1.6 k值的选择 361
9.1.7 kd树 362
9.1.8 特征工程-特征预处理 368
9.1.9 网格搜索(Grid Search) 374
9.2 贝叶斯算法 377
9.2.1 背景介绍 377
9.2.2 贝叶斯要解决的问题 378
9.2.3 案例:选择最短地铁路线 378
9.2.4 朴素贝叶斯代码应用 380
9.3 决策树算法 381
9.3.1 决策树算法简介 381
9.3.2 决策树分类原理 382
9.3.3 cart剪枝 392
9.3.4 特征工程-特征提取 393
9.3.5 案例:泰坦尼克号乘客生存预测 403
9.4 支持向量机算法 408
9.4.1 背景介绍 408
9.4.2 支持向量机的基本概念 409
9.4.3 支持向量机原理分析 410
9.4.4 支持向量机应用 417
9.5 多类问题 419
9.5.1 原理与应用场景 419
9.5.2 代码实现多类问题 420

第10章 回归算法与应用 424
10.1 线性回归简介 426
10.1.1 线性回归应用场景 426
10.1.2 什么是线性回归 427
10.2 数学:求导 429
10.3 线性回归api初步使用 431
10.4 线性回归的损失和优化 432
10.4.1 损失函数 433
10.4.2 优化算法 433
10.5 梯度下降法再介绍 440
10.6 线性回归api再介绍 444
10.6.1 线性回归API 444
10.6.2 案例:波士顿房价预测 446
10.7 欠拟合和过拟合 449
10.7.1 定义 449
10.7.2 原因以及解决办法 449
10.7.3 多项式回归 450
10.7.4 正则化 451
10.7.5 维灾难(了解) 452
10.8 正则化线性模型 458
10.9 线性回归的改进-岭回归 460
10.9.1 岭回归API 460
10.9.2 波士顿房价预测 461
10.10 逻辑回归 463
10.10.1 逻辑回归介绍 463
10.10.2 逻辑回归api介绍 465
10.10.3 案例:癌症分类预测-良/恶性乳腺癌肿瘤预测 466

第11章 集成学习算法与应用 469
11.1 集成学习算法简介 471
11.2 常用集成学习 471
11.2.1 bagging 472
11.2.2 boosting 472
11.2.3 bagging与boosting的区别 474
11.3 结合策略 474
11.4 随机森林 475
11.5 Adaboost算法 477
11.5.1 Adaboost算法简介 477
11.5.2 Adaboost算法构建过程 477
11.5.3 Adaboost算法实例 479
11.5.4 Adaboost算法的优缺点 482
11.5.5 Adaboost算法API与应用 482

第12章 无监督学习算法与应用 486
12.1 聚类分析简介 488
12.2 聚类的框架 488
12.3 划分聚类 489
12.4 K-Means算法 489
12.5 K-Means算法API 493
12.6 模型评估 498
12.6.1 误差平方和(SSE,The sum of squares due to error) 498
12.6.2 肘方法 (Elbow method) — K值确定 499
12.6.3 轮廓系数法(Silhouette Coefficient) 500
12.6.4 CH系数(Calinski-Harabasz Index) 502
12.7 K-Means算法优化 503
12.8 层次聚类算法 508
12.9 层次聚类算法API与应用 509
12.10 密度聚类 513
12.11 特征工程——特征降维 518
12.11.1 降维 518
12.11.2 特征选择 519
12.11.3 主成分分析 527
12.11.4 主成分分析原理 530
12.11.5 PCA计算案例 541
12.12 案例:探究用户对物品类别的喜好细分降维 542

第13章 神经网络 545
13.1 前馈神经网络简介 547
13.2 BP神经网络原理 548
13.2.1 基本模块--神经元 548
13.2.2 神经网络 550
13.2.3 训练神经网络(一) 552
13.2.4 训练神经网络(二)--减少神经网络损失 554
13.3 BP神经网络API与应用 561
13.3.1 BP神经网络API 561
13.3.2 使用MLPClassifier进行分类 564
13.3.3 使用MLPRegressor进行回归 567
13.4 使用手写数据集进行分类训练 568

第14章 推荐算法 573
14.1 协调过滤算法简介 575
14.2 基于用户的协同过滤算法 576
14.3 基于物品的协同过滤算法 579
14.4 代码实现协同过滤算法 581
14.4.1 基于用户的协同过滤算法实现的过程 581
14.4.2 基于物品的协同过滤算法实现的过程 586
14.4.3 两种协同过滤方式的选择 586
14.4.4 协同过滤算法评估 587
14.5 关联规则简介 588
14.6 Apriori算法 590
14.6.1 Apriori算法简介 590
14.6.2 Apriori算法原理与实现 591
14.6.3 关联规则评估 597