数据挖掘与Python实践
作者: 李爱华等
出版时间:2023-02-20
出版社:高等教育出版社
- 高等教育出版社
- 9787040589979
- 1版
- 458662
- 60250058-9
- 平装
- 16开
- 2023-02-20
- 370
- 268
- 大数据管理与应用
- 本科
本书是教育部高等学校软件工程教学指导委员会(第一批)专业方向类规划推荐教材,中央财经大学研究生精品教材建设项目立项教材。
本书体系完整,内容丰富,共包含8章:第一章导言、第二章认识数据、第三章数据预处理、第四章关联规则挖掘、第五章分类、第六章数值预测、第七章聚类分析和第八章复杂数据的挖掘。此外,本书还附带了Python环境搭建及基础教程,供读者使用。
本书可作为高等学校数据科学与大数据专业课程教材,也可作为相关专业的专业课教材使用。
前辅文
第1章 导言
1.1 数据挖掘简介
1.1.1 数据挖掘的产生
1.1.2 数据挖掘的定义
1.1.3 数据挖掘的流程
1.2 数据挖掘的模式类型和涉及领域
1.2.1 数据挖掘的模式类型
1.2.2 数据挖掘涉及领域
1.3 数据挖掘的应用
1.3.1 应用场景1———市场分析和管理
1.3.2 应用场景2———风险分析和管理
1.3.3 应用场景3———欺骗检测和异常模式识别
1.4 数据挖掘的常用软件
1.4.1 Python
1.4.2 R
1.4.3 Weka
1.4.4 SPSS Modeler
1.4.5 SAS
本章小结
课后习题
即测即评
第2章 认识数据
2.1 数据对象与属性类型
2.1.1 数据对象
2.1.2 属性类型
2.2 数据的基本统计描述
2.2.1 数据的基本统计描述———集中趋势
2.2.2 数据的基本统计描述———离散趋势
2.2.3 数据的基本统计描述———基本统计图
2.3 数据可视化
2.4 相似性、相异性与邻近性度量
2.4.1 度量数据的相似性和相异性
2.4.2 标称属性的邻近性度量
2.4.3 数值属性的邻近性度量
2.4.4 序数属性的邻近性度量
2.4.5 混合类型属性的相异性
2.4.6 余弦相似性
2.5 数据、信息和知识
2.5.1 数据
2.5.2 信息和知识
2.6 Python 实践
本章小结
课后习题
即测即评
第3章 数据预处理
3.1 数据预处理的原因和任务
3.2 数据清洗
3.2.1 缺失值
3.2.2 噪声数据
3.3 数据集成
3.4 数据归约
3.4.1 维归约
3.4.2 数量归约
3.4.3 数据压缩
3.5 数据变换
3.5.1 数据规范化
3.5.2 数据离散化
3.6 Python 实践
本章小结
课后习题
即测即评
第4章 关联规则挖掘
4.1 频繁模式与关联规则
4.1.1 频繁模式
4.1.2 关联规则
4.2 频繁项集的典型发掘方法
4.2.1 逐层发现算法 Apriori
4.2.2 无候选集发现算法FPgrowth
4.3 关联规则的生成方法
4.4 关联规则的其他类型
4.4.1 多层次关联规则
4.4.2 负模式
4.4.3 结构化数据中的关联分析
4.5 关联规则的兴趣度的其他度量
4.5.1 提升度(lift)
4.5.2 余弦(cosine)
4.6 Python 实践
4.6.1 Apriori 算法 Python 实践
4.6.2 FPgrowth 算法Python实践
4.6.3 Mushroom 案例Python实践
本章小结
课后习题
即测即评
第5章 分类
5.1 分类概述
5.2 决策树
5.2.1 决策树的基本概念
5.2.2 ID3 算法
5.2.3 C4.5 算法
5.2.4 决策树的剪枝
5.2.5 Python 构建决策树
5.3 k 近邻分类
5.3.1 k 近邻的基本思想
5.3.2 k 近邻的关键技术
5.3.3 Python 实现 k 近邻分类
5.4 朴素贝叶斯分类
5.4.1 贝叶斯定理
5.4.2 朴素贝叶斯分类计算
5.4.3 Python 实现朴素贝叶斯分类
5.5 人工神经网络
5.5.1 人工神经网络的提出
5.5.2 人工神经元基本模型
5.5.3 人工神经网络的结构
5.5.4 Python 实现人工神经网络
5.6 支持向量机
5.6.1 支持向量机的提出
5.6.2 支持向量机分类基本原理
5.6.3 Python 实现支持向量机分类器
5.7 分类性能度量
5.7.1 测试数据集的构造
5.7.2 分类性能的度量
5.7.3 不同分类模型的比较
5.8 分类在信用评级中的应用案例
5.8.1 信用评级的背景
5.8.2 信用评级的概念
5.8.3 信用评级的方法
5.8.4 Python 实践
本章小结
课后习题
即测即评
第6章 数值预测
6.1 数值预测的概念
6.1.1 数值预测
6.1.2 数值预测的相关概念
6.2 回归方法
6.2.1 回归概念及一元线性回归
6.2.2 一元线性回归检验
6.2.3 多元线性回归
6.2.4 非线性回归
6.2.5 二元逻辑回归
6.3 回归树与模型树
6.3.1 模型树的构建
6.3.2 模型树的剪枝
6.3.3 算法
6.4 k 近邻数值预测
6.5 预测误差的度量
6.6 Python 实践
6.6.1 线性回归
6.6.2 回归树
6.6.3 k 近邻回归
本章小结
课后习题
即测即评
第7章 聚类分析
7.1 聚类概述
7.1.1 什么是聚类
7.1.2 聚类方法
7.1.3 聚类功能及应用
7.2 相似度度量方法
7.2.1 基于内容的相似度度量
7.2.2 基于链接的相似度度量
7.3 k 均值聚类
7.3.1 k 均值聚类原理
7.3.2 k 均值聚类算法的Python实验
7.4 层次聚类
7.4.1 凝聚层次聚类原理
7.4.2 凝聚层次聚类算法的Python实验
7.5 DBSCAN 方法
7.5.1 DBSCAN 聚类原理
7.5.2 DBSCAN 聚类算法的Python实验
7.6 聚类效果衡量方法
7.7 聚类在实际场景中的应用案例
7.7.1 固定资产投资聚类分析
7.7.2 客户群聚类分析
本章小结
课后习题
即测即评
第8章 复杂数据的挖掘
8.1 序列数据、图与网络
8.1.1 序列数据
8.1.2 图与网络
8.2 其他类型数据
本章小结
课后习题
即测即评
附录一 Python 环境搭建及基础教程
一、安装
(一)下载
(二)Python 版本问题
二、jupyter
(一)打开 jupyter
(二)jupyter 操作
(三)选择在不同的工作目录下运行 jupyter
三、包管理
(一)Python 数据挖掘主要使用的包
(二)包安装
(三)包的使用
附录二 Python 基础教程
一、Python
(一)基础数据类型
(二)复合数据类型
(三)控制语句
(四)函数
二、NumPy
(一)数组 array
(二)数组运算
三、Pandas
(一)创建 DateFrame
(二)浏览数据
(三)选择数据
(四)读取和写入数据
四、Matplotlib
(一)绘图
(二)绘制子图
(三)其他类型的图像
五、其他常用工具包
(一)Statsmodels
(二)SciPy
(三)scikitlearn