全国大中专教材网络采选系统

推荐纸质教材推荐数字资源

Python大数据技术应用实践 / 大数据技术应用实践系列

定价：￥69.80

作者：娄嘉鹏，郑洪宾

出版时间：2020-10

最新印次日期：2020-10

出版社：北京师范大学出版社

以下为《Python大数据技术应用实践》的配套数字资源，这些资源在您购买图书后将免费附送给您：

关闭

基本信息评价

出版社：北京师范大学出版社
ISBN：9787303261574
版次：1版
本季征订号：61260838-0
开本：16开
出版时间：2020-10
本科门类：工学
本科专业类：计算机类
适用专业：计算机、大数据
适用分级：本科

作者简介

娄嘉鹏，北京电子科技学院网络空间安全系，荣获“北京市优秀教师”，“北京市十大魅力教师”等荣誉称号。主讲《Python程序设计》，《Java程序设计》，《Linux内核原理与分析》等课程。

查看全部

目录
内容简介 1
前言 2
第1章 Python基础简介 12
1.1 Python语言概述 12
1.2 为何学习Python 12
1.2.1 Python特点 12
1.2.2 Python在大数据中的优势 14
1.3 Python主要应用领域 14
1.4 Python开发环境搭建 14
1.4.1 Windows系统中安装Python 14
1.4.2 在Linux系统中安装Python 16
1.4.3 使用pip安装扩展库 17
1.4.4 PyCharm安装与使用 18
1.4.5 Anaconda3安装与使用 21
第2章初识Python 26
2.1 基本数据类型 26
2.1.1 数值类型 26
2.1.2 字符串 27
2.1.3 常用容器类型 30
2.2 变量 33
2.2.1 变量的定义与命名规则 33
2.2.2 变量创建与删除 33
2.3 基本输入输出 34
2.3.1 input()函数 34
2.3.2 print()函数 34
2.4 模块 35
2.4.1 模块的概念 35
2.4.2 导入和使用模块中的对象 35
2.4.3 内置模块__builtins__ 36
2.4.4 time模块 36
2.4.5 datetime模块 37
2.4.6 random模块 38
2.4.7 sys模块 39
2.4.8 自定义模块 40
2.5 运算符与表达式 40
2.5.1 算术运算符 40
2.5.2 关系运算符 41
2.5.3 集合运算符 42
2.5.4 逻辑运算符 42
2.5.5 成员运算符 42
2.5.6 身份运算符 42
2.5.7 运算符优先级 43
2.6 选择结构与循环结构 44
2.6.1 常用选择结构 44
2.6.2 if...else 44
2.6.3 while循环 45
2.6.4 for循环 46
2.6.5 break与continue语句 46
2.6.6 带else子句的循环结构 47
2.7 猜数字游戏 47
第3章列表与元组 50
3.1 序列操作 50
3.1.1 创建序列 50
3.1.2 元素访问 51
3.1.3 切片 52
3.2 列表常用方法 53
3.2.1 append()、extend()、insert() 53
3.2.2 count() 54
3.2.3 index() 54
3.2.4 pop()、remove() 54
3.2.5 sort()、reverse() 55
3.3 元组 55
3.3.1 列表和元组的区别 55
3.3.2 元组的优点 56
3.4 列表解析式与生成器表达式 57
3.4.1 列表解析式 57
3.4.2 生成器表达式 59
3.4.3 列表解析式与生成器表达式的区别 60
第4章字符串与正则表达式 63
4.1 字符编码 63
4.1.1 常见字符编码 63
4.1.2 字符串与字节串之间的转换 64
4.2 字符串的基本操作 65
4.2.1 元素访问 65
4.2.2 连接字符串 65
4.2.3 字符串重复 65
4.2.4 切片 66
4.2.5 字符串测试 67
4.3 字符串格式化 67
4.3.1 使用运算符%格式化 67
4.3.2 使用format()方法格式化 69
4.3.3 格式化字符串常量 70
4.4 字符串方法 70
4.4.1 find()、index() 70
4.4.2 split()、join() 71
4.4.3 lower()、upper()、swapcase() 71
4.4.4 strip() 72
4.4.5 replace() 72
4.4.6 maketrans、translate() 73
4.4.7 isupper()、islower()、isdigit() 73
4.4.8 center()、ljust()、rjust() 74
4.5 正则表达式与re模块 74
4.5.1 正则表达式基本语法 74
4.5.2 贪婪模式与非贪婪模式 75
4.5.3 re.match()、re.search() 76
4.5.4 re.split() 77
4.5.5 re.sub() 77
第5章字典 80
5.1 字典创建与使用 80
5.1.1 字典的创建与删除 80
5.1.2 访问元素值 80
5.1.3 添加元素、修改元素值 81
5.2 字典方法 82
5.2.1 get() 82
5.2.2 items()、keys()、values() 82
5.2.3 pop()、popitem() 82
第6章集合 84
6.1 集合创建与使用 84
6.1.1 集合的创建与删除 84
6.1.2 元素插入与删除 84
6.2 集合常用运算 85
第7章文件操作 87
7.1 文件基本概念 87
7.1.1 文本文件 87
7.1.2 二进制文件 87
7.1.3 两者的区别 87
7.2 打开与关闭文件 87
7.2.1 open()函数与close()方法 87
7.2.2 with关键字 87
7.3 文件对象基本方法 87
7.3.1 read()、readline()、readlines() 87
7.3.2 write()、writelines() 87
7.3.3 读写二进制文件（是不是应该使用Struct？） 87
7.4 数据序列化与反序列化 87
7.4.1 序列化和反序列化的作用 87
7.4.2 使用pickle进行序列化和反序列化 87
7.4.3 使用JSON进行序列化和反序列化 87
7.5 文件与文件夹基本操作 87
7.5.1 os模块 87
7.5.2 os.path模块 87
第8章函数 87
8.1 函数的定义和调用 87
8.1.1 定义函数 87
8.1.2 调用函数 87
8.2.3 递归函数 87
8.2 函数参数 87
8.2.1 形参与实参概念 87
8.2.2 位置参数 87
8.2.3 关键字参数 87
8.2.4 默认值参数 87
8.2.5 长度可变参数 87
8.3 变量作用域 87
8.4 函数返回值 87
8.5 函数嵌套定义、闭包、装饰器 87
第9章面向对象 87
9.1 类的定义与使用 87
9.1.1 class关键字 87
9.1.2 数据成员与成员方法 87
9.1.3 创建对象 87
9.2 构造方法与析构方法 87
9.3 成员访问权限 87
9.4 继承 87
第10章异常处理结构 87
10.1 异常概念与常见表现形式 87
10.2 常见异常处理结构 87
10.2.1 try...except... 87
10.2.2 try...except...else... 87
10.2.3 带多个except的异常处理结构 87
10.2.4 try...finally... 87
10.3 raise语句 87
第11章使用pandas进行数据分析 87
11.1 Series和DataFrame简介 87
11.2 DataFrame常用属性和方法 87
11.2.1 创建DataFrame 87
11.2.2 DataFrame常用方法 87
11.3 数据访问与修改 87
11.3.1 数据访问 87
11.4 缺失值处理 87
11.5 重复值处理 87
11.6 异常值处理 87
11.7 读写文件 87
11.8 结合Matplotlib进行数据可视化 87
第12章可视化技术与Matplotlib 87
12.1 绘制折线图 87
12.2 绘制散点图 87
12.3 绘制饼状图 87
12.4 绘制柱状图 87
12.5 绘图区域分割 87
12.5.1 plt.subplot(nrows， ncols， plot_number) 87
12.5.2 plt.subplot2grid(shape， loc， rowspan=1， colspan=1， fig=None) 87
12.5.3 matplotlib.gridspec 类 87
第13章分类与预测 87
13.1 Logistic回归分析 87
13.1.1 Logistic回归分析定义 87
13.1.2 Logistic回归模型基本思想及内容 87
13.1.3 Logistic回归分析模型建模步骤 87
13.1.4 Logistic回归分析算法实例 87
13.2 决策树 87
13.2.1 决策树定义 87
13.2.2 常用决策树算法 87
13.2.3 决策树基本思想及内容 87
13.2.4 决策树计算公式及语法 87
13.2.5 决策树实例 87
13.3 K近邻分类算法 87
13.3.1 K近邻分类算法定义 87
13.3.2 K邻近分类算法计算步骤 87
13.3.3 K近邻分类算法优缺点 87
13.3.4 K邻近分类算法语法结构 87
13.3.5 K近邻分类算法实例 87
13.4 人工神经网络 87
13.4.1 人工神经网络定义 87
13.4.2 人工神经网络基本思想及内容 87
13.4.3 BP神经网络算法步骤 87
13.4.4 人工神经网络实例 87
13.5 支持向量机 87
13.5.1 支持向量机定义 87
13.5.2 支持向量机优缺点 87
13.5.3 支持向量机语法结构 87
13.5.4 支持向量机算法实例 87
13.6 随机森林 87
13.6.1 随机森林定义 87
13.6.2 随机森林执行步骤 87
13.6.3 随机森林优缺点 87
13.6.4 随机森林语法结构 87
13.6.5 随机森林方法实例 87
第14章常用聚类分析算法 87
14.1 KMeans聚类算法 87
14.1.1 KMeans聚类算法过程 87
14.1.2 KMeans聚类的主要特点 87
14.1.3 KMeans聚类语法结构 87
14.1.4 KMeans聚类实例 87
14.2 系统聚类算法 87
14.2.1 系统聚类算法定义 87
14.2.2 系统聚类算法步骤 87
14.2.3 系统聚类算法语法结构 87
14.2.4 系统聚类算法实例 87
14.3 DBSCAN聚类算法 87
14.3.1 DBSCAN聚类算法定义 87
14.3.2 DBSCAN聚类算法步骤 87
14.3.3 DBSCAN聚类算法优缺点 87
14.3.4 DBSCAN聚类算法语法结构 87
14.3.5 DBSCAN聚类算法实例 87
第15章关联规则算法 87
15.1 Apriori算法简介 87
15.1.1 挖掘项集相关定义 87
15.1.2 步骤 87
15.1.3 由频繁项集产生关联规则 87
15.2 Apriori算法应用 87
第16章协同过滤算法 87
16.1 基于用户的协同过滤算法 87
16.1.1 基于用户的协同过滤算法定义 87
16.1.2 基于用户的协同过滤算法的方法步骤 87
16.1.3 基于用户的协同过滤算法的优缺点 87
16.1.4 基于用户的协同过滤算法实例 87
16.2 基于物品的协同过滤算法 87
16.2.1 基于物品的协同过滤算法定义 87
16.2.2 基于物品的协同过滤算法方法步骤 87
16.2.3 基于物品的协同过滤算法实例 87
第17章时间序列数据分析 87
17.1 时间序列的预处理 87
17.1.1 平稳性检验 87
17.1.2 纯随机性检验 87
17.2 平稳时间序列分析 87
17.2.1 AR模型 87
17.2.2 MA模型 87
17.2.3 ARMA模型 87
17.2.4 平稳时间序列建模 87
17.3 非平稳时间序列分析 87
17.3.1 差分运算 87
17.3.2 ARIMA模型 87
17.4 Python 主要时序模式算法 87
第18章离群点检测方法 87
18.1 离群点检测概述 87
18.1.1 离群点检测概念 87
18.1.2 离群点的成因 87
18.1.3 离群点的类型 87
18.1.4常用离群点检测方法 87
18.2 基于密度的离群点检测方法 87
18.2.1 平稳性检验 87
18.2.2 一元正态分布中的的离群点检测 87
18.2.3 混合模型的离群点检测 87
18.3 基于聚类的离群点检测方法 87
18.4 基于距离的离群点检测方法 87
18.4.1 基于原型的聚类 87
18.4.2 基于聚类的离群点检测的改进 87
第19章数据降维 87
19.1 数据降维概述 87
19.1.1 数据降维概述 87
19.1.2 有监督和无监督 87
19.1.3 线性降维 87
19.1.4 非线性降维 87
19.1.5 数据标准化 87
19.2 常用降维方法简介 87
19.2.1 缺失值的比率 87
19.2.2 低方差过滤 87
19.2.3 高相关过滤 87
19.2.4 Random Forests/Ensemble Trees 87
19.2.5 PCA（主成分分析） 87
19.2.6 反向特征的消除 87
19.2.7 正向特征的构建 87
第20章模型评估与调优 87
20.1 模型评估和调优的意义 87
20.1.1 机器学习 87
20.1.2 模型评估 87
20.2 评估指标（Evaluation metrics） 87
20.2.1 分类评估指标 87
20.2.2 回归评估指标 87
20.2.3 排序评估指标 87
20.3 模型调优建议与注意事项 87
20.3.1 数据倾斜 87
20.3.2 类别不均衡（Imbalanced Classes） 87
20.3.3 异常点（Outliers） 87
第21章数据分析与挖掘实战 87
21.1 热水器使用情况分析 87
21.1.1 背景与挖掘目标 87
21.1.2 分析方法与过程 87
21.1.3 数据抽取 87
21.1.4 数据探索分析 87
21.1.5 数据预处理 87
21.1.6 模型构建 87
21.1 电子商务的智能推荐 87
21.1.1 背景与挖掘目标 87
21.1.2 分析方法与过程 87
21.1.3 数据抽取 87
21.1.4 数据探索分析 87
21.1.5 数据预处理 87
21.1.6 模型构建 87
21.2 财政收入分析 87
21.2.1 背景与挖掘目标 87
21.2.2 分析方法与过程 87
21.2.3 灰色预测与神经网络的组合模型 87
21.2.4 数据探索分析 87
21.2.5 模型构建 87
21.3 电商产品评价分析 87
21.3.1 背景与挖掘目标 87
21.3.2 分析方法与过程 87
21.3.3 评论数据采集 87
21.3.4 评论预处理 87
21.3.5 机械压缩去词 87
21.3.6 文本评论分词 87
21.3.7 模型构建 87
21.4 电力窃漏识别分析 87
21.4.1 背景与挖掘目标 87
21.4.2 分析方法与过程 87
21.4.3 灰色预测与神经网络的组合模型 87
21.4.4 数据探索分析 87
21.4.5 数据预处理 87
21.4.6 构建专家样本 87
21.4.7 模型构建 87
参考文献： 87