数据挖掘(第2版) / 高级大数据人才培养丛书
¥88.00定价
作者: 王朝霞
出版时间:2024-06
出版社:电子工业出版社
- 电子工业出版社
- 9787121455025
- 1-3
- 524935
- 48253833-7
- 平塑勒
- 16开
- 2024-06
- 308
- 计算机科学与技术
- 本科 研究生及以上
内容简介
本书系统地介绍了数据挖掘理论、方法与应用,包括数据特征分析与预处理,经典数据挖掘算法(分类、回归、聚类、关联规则和集成学习等),大数据新常态下催生的数据分析方法(推荐系统、链接分析与网页排序、互联网信息抽取、日志挖掘与查询分析等)等理论与方法。在此基础上,每章均有基于Python语言的实例应用。本书可以作为高等院校数据科学与大数据技术专业相关课程的教材,以及计算机、软件工程等专业的教材或参考书。高职高专学校相关专业也可选用部分内容开展教学。
目录
第1章 绪论 1__eol__1.1 数据挖掘的基本概念 1__eol__1.1.1 数据挖掘的概念 1__eol__1.1.2 大数据环境下的数据挖掘 2__eol__1.1.3 数据挖掘的特性 3__eol__1.1.4 数据挖掘的任务和功能 3__eol__1.1.5 数据挖掘的对象 4__eol__1.1.6 数据挖掘的过程 5__eol__1.2 数据挖掘的起源及发展 6__eol__1.3 数据挖掘的常用工具 9__eol__1.3.1 商用工具 9__eol__1.3.2 开源工具 10__eol__1.4 数据挖掘的应用 12__eol__习题 15__eol__参考文献 16__eol__第2章 数据特征分析及预处理 17__eol__2.1 数据类型 17__eol__2.1.1 属性与度量 17__eol__2.1.2 数据集的类型 18__eol__2.2 数据特征分析 19__eol__2.2.1 描述数据集中趋势的度量 19__eol__2.2.2 描述数据离散程度的度量 21__eol__2.2.3 数据相关性分析 24__eol__2.3 数据预处理 28__eol__2.3.1 数据清洗 28__eol__2.3.2 数据集成 34__eol__2.3.3 数据规范化 34__eol__2.3.4 数据规约 38__eol__2.3.5 数据离散化 45__eol__2.4 数据的相似性 47__eol__2.4.1 数值属性的相似性度量 47__eol__2.4.2 标称属性的相似性度量 49__eol__2.4.3 组合异种属性的相似性度量 50__eol__2.4.4 文本的相似性度量 52__eol__2.4.5 离散序列的相似性度量 53__eol__习题 55__eol__参考文献 56__eol__第3章 分类 57__eol__3.1 分类概述 58__eol__3.1.1 分类的基本概念 58__eol__3.1.2 分类的过程 58__eol__3.1.3 分类器性能的评估方法 59__eol__3.2 决策树 61__eol__3.2.1 决策树的基本概念 62__eol__3.2.2 决策树的用途和特性 62__eol__3.2.3 决策树的工作原理 63__eol__3.2.4 决策树的构建步骤 64__eol__3.2.5 决策树算法原理 65__eol__3.3 贝叶斯分类 76__eol__3.3.1 贝叶斯定理 76__eol__3.3.2 朴素贝叶斯分类 77__eol__3.3.3 贝叶斯分析 80__eol__3.3.4 贝叶斯决策 80__eol__3.3.5 贝叶斯估计 81__eol__3.4 支持向量机 81__eol__3.4.1 支持向量机的主要思想 82__eol__3.4.2 支持向量机的基础理论 82__eol__3.4.3 支持向量机的原理 87__eol__3.5 实战:Python支持向量机分类 92__eol__习题 95__eol__参考文献 95__eol__第4章 回归 98__eol__4.1 回归的基本概念 99__eol__4.1.1 回归分析的定义 99__eol__4.1.2 回归分析的步骤 99__eol__4.1.3 回归分析要注意的问题 100__eol__4.2 一元回归分析 100__eol__4.2.1 一元回归分析的模型设定 100__eol__4.2.2 回归参数的最小二乘估计 102__eol__4.2.3 基本假设下OLS估计的统计性质 104__eol__4.2.4 误差方差估计 105__eol__4.2.5 回归系数检验(t检验) 106__eol__4.2.6 拟合优度和模型检验(F检验) 107__eol__4.3 多元线性回归分析 108__eol__4.3.1 多元线性回归模型 108__eol__4.3.2 多元线性回归模型的假定 110__eol__4.3.3 多元线性回归模型的参数估计 110__eol__4.3.4 显著性检验 112__eol__4.3.5 回归变量的选择与逐步回归 114__eol__4.4 逻辑回归分析 116__eol__4.4.1 逻辑回归模型 116__eol__4.4.2 logit变换 117__eol__4.4.3 估计回归系数 118__eol__4.4.4 Logistic分布 118__eol__4.4.5 列联表的Logistic回归模型 119__eol__4.5 其他回归分析 120__eol__4.5.1 多项式回归 120__eol__4.5.2 逐步回归 120__eol__4.5.3 岭回归 120__eol__4.5.4 套索回归 121__eol__4.5.5 弹性网络 122__eol__4.6 实战:获得最大有效率时的药物用量 122__eol__习题 127__eol__参考文献 128__eol__第5章 聚类 129__eol__5.1 聚类基本概念 129__eol__5.2 划分聚类方法 131__eol__5.2.1 k-平均算法 132__eol__5.2.2 k-中心点算法 134__eol__5.3 层次聚类方法 137__eol__5.3.1 层次聚类方法的分类 137__eol__5.3.2 BIRCH算法 141__eol__5.4 密度聚类方法 144__eol__5.5 实战:Python聚类分析 147__eol__5.5.1 Python实现k-均值划分聚类 147__eol__5.5.2 Python实现BIRCH层次聚类 150__eol__5.5.3 Python实现DBSCAN密度聚类 152__eol__习题 153__eol__参考文献 154__eol__第6章 关联规则 155__eol__6.1 基本概念 155__eol__6.1.1 啤酒与尿布的经典案例 155__eol__6.1.2 关联规则的概念 155__eol__6.1.3 频繁项集的产生 159__eol__6.2 Apriori算法:通过限制候选产生发现频繁项集 160__eol__6.2.1 Apriori算法的频繁项集产生 160__eol__6.2.2 Apriori算法描述 162__eol__6.3 FP-growth算法 164__eol__6.3.1 构造FP树 165__eol__6.3.2 挖掘FP树 167__eol__6.3.3 FP-growth算法 169__eol__6.4 其他关联规则算法 170__eol__6.4.1 约束性关联规则 170__eol__6.4.2 增量式关联规则 171__eol__6.4.3 多层关联规则 172__eol__6.5 实战:购物篮关联规则挖掘 174__eol__6.5.1 背景与挖掘目标 174__eol__6.5.2 分析方法与过程 174__eol__6.5.3 总结 176__eol__习题 177__eol__参考文献 177__eol__第7章 集成学习 180__eol__7.1 集成学习的概念 180__eol__7.1.1 集成学习的构建 180__eol__7.1.2 集成学习的优势 181__eol__7.2 Bagging算法与随机森林算法 183__eol__7.2.1 Bagging算法基本思想 183__eol__7.2.2 Bagging算法流程 185__eol__7.2.3 随机森林算法 185__eol__7.3 Boosting算法 187__eol__7.3.1 Boosting算法流程 187__eol__7.3.2 Boosting系列算法 188__eol__7.4 结合策略 189__eol__7.4.1 投票方法 189__eol__7.4.2 叠加方法 190__eol__7.5 多样性 190__eol__7.5.1 多样性的概念 190__eol__7.5.2 多样性的作用 191__eol__7.5.3 多样性的度量 192__eol__7.5.4 多样性的构建 195__eol__7.6 实战案例 196__eol__7.6.1 鸢尾花数据集 197__eol__7.6.2 集成学习算法 198__eol__7.6.3 集成学习在鸢尾花数据集上的应用 200__eol__7.7 本章小结 205__eol__习题 205__eol__参考文献 205__eol__第8章 推荐系统 206__eol__8.1 推荐系统概述 206__eol__8.1.1 什么是推荐系统 206__eol__8.1.2 推荐系统评测指标 207__eol__8.1.3 推荐系统中的冷启动 210__eol__8.2 基于内容的推荐 213__eol__8.2.1 物品表示 214__eol__8.2.2 物品相似度 217__eol__8.2.3 用户对物品的评分 218__eol__8.2.4 基于向量空间模型的推荐 218__eol__8.3 协同过滤推荐 222__eol__8.3.1 协同过滤的基本概念 222__eol__8.3.2 基于用户的协同过滤 226__