Python数据分析与大数据处理从入门到精通
¥89.00定价
作者: 朱春旭
出版时间:2019-11
出版社:北京大学出版社
- 北京大学出版社
- 9787301307656
- 301058
- 2019-11
- TP311.561
作者简介
内容简介
本书总共分五篇,20个章节。从Python程序设计入手,然后学习数据分析与可视化工具、大数据存储与并行计算框架,由浅入深、层层递进,再通过3个项目实例运用与总结前三篇内容,直到掌握Python大数据开发流程和编程技能。Python程序设计篇:分6个章节。主要介绍python的历史情况与现状、环境搭建、pip/ easyinstall软件包管理、开发工具、基本的互操作、数据类型与逻辑控制、函数式编程、面向对象程序设计、程序异常处理等。 数据清洗篇:分2个章节。主要介绍了数据清洗的意义与清洗步骤。主要目的在于删减无效数据、补充合理数据,防止数据倾斜和脏数据影响分析结果。数据分析与可视化篇:分4个章节。主要介绍Numpy科学计算库、Pandas数据分析处理库、Matplotlib数据可视化Seaborn数据可视化。大数据存储与快速分析篇:分5个章节。主要介绍Hadoop大规模分布式存储与资源调度工具、Spark高性能大数据处理工具。本篇中重点围绕存储与计算讲解。项目实战篇:分3个章节。通过电商数据、二手房房价、求职网站职位分析3个项目案例融合前面所学知识,进行项目实战。从理论走向实践,掌握大数据分析的开发流程和编程技能。 本书内容精练、重点突出、实例丰富,是广大数据分析工作者不可或缺的参考书,同时也非常适合大、中专院校师生学习阅读,还可作为高等院校统计分析及相关专业的教材。
目录
第1篇 Python程序设计 第1章 Python入门 3 1.1 Python概述 4 1.2 搭建Python开发环境 6 1.3 Python开发工具介绍 11 1.4 Python软件包的管理 13 1.5 实训:编写“Hello World” 15 本章小结 16 第2章 Python基础 17 2.1 变量 18 2.2 标识符 24 2.3 代码组织 26 2.4 输入与输出 28 2.5 运算符与优先级 30 2.6 新手问答 30 2.7 实训:设计一个简易计算器 31 本章小结 31 第3章 数据类型与流程控制 32 3.1 数字类型 33 3.2 字符串类型 37 3.3 集合类型 40 3.4 流程控制语句 45 3.5 新手问答 47 3.6 实训:设计算法,输出乘法表 49 本章小结 50 第4章 函数、模块、包 51 4.1 自定义函数 52 4.2 函数参数 55 4.3 函数式编程 58 4.4 模块与包 63 4.5 新手问答 65 4.6 实训:设计算法,对列表进行排序 67 本章小结 68 第5章 面向对象的程序设计 69 5.1 面向对象 70 5.2 自定义类 71 5.3 属性 73 5.4 方法 79 5.5 类的继承 83 5.6 可调用对象 86 5.7 不可变对象 87 5.8 新手问答 88 5.9 实训:设计算法,构造一棵二叉树 90 本章小结 92 第6章 高级主题 93 6.1 生成器 94 6.2 迭代器 96 6.3 异步处理 97 6.4 错误、调试 103 6.5 新手问答 108 6.6 实训:使用多进程技术统计数据并汇总 109 本章小结 110 第2篇 数据采集与数据清洗 第7章 网络数据采集 113 7.1 HTTP请求概述 114 7.2 XPath网页解析 114 7.3 Scrapy数据采集入门 119 7.4 Scrapy应对反爬虫程序 126 7.5 CrawlSpider类 131 7.6 分布式爬虫 132 7.7 新手问答 136 7.8 实训:构建百度云音乐爬虫 136 本章小结 139 第8章 数据清洗 140 8.1 数据清洗的意义 141 8.2 数据清洗的内容 141 8.3 数据格式与存储类型 142 8.4 数据清洗的步骤 145 8.5 数据清洗的工具 147 8.6 新手问答 151 8.7 实训:清洗百度云音乐数据并储存到CSV 151 本章小结 152 第3篇 数据分析与可视化 第9章 NumPy数值计算 155 9.1 NumPy基础 156 9.2 形状操作 164 9.3 副本、浅拷贝和深拷贝 166 9.4 高级索引 168 9.5 排序统计 171 9.6 新手问答 173 9.7 实训:销售额统计 174 本章小结 175 第10章 Matplotlib可视化 176 10.1 图形的基本要素 177 10.2 绘图基础 177 10.3 设置样式 186 10.4 图形样例 189 10.5 新手问答 198 10.6 实训:营业数据可视化 199 本章小结 201 第11章 Pandas统计分析 202 11.1 Pandas数据结构 203 11.2 基础功能 210 11.3 统计分析 217 11.4 时间数据 229 11.5 数据整理 231 11.6 高级功能 234 11.7 读写MySQL数据库 236 11.8 新手问答 237 11.9 实训:成绩分析 237 本章小结 239 第12章 Seaborn可视化 240 12.1 Seaborn概述 241 12.2 可视化数据关系 242 12.3 根据数据分类绘图 246 12.4 单变量与双变量 251 12.5 线性关系 256 12.6 新手问答 258 12.7 实训:成绩分析可视化 258 本章小结 260 第4篇 大数据存储与快速分析篇 第13章 Hadoop数据存储与基本操作 263 13.1 Hadoop概述 264 13.2 Hadoop数据存储与任务调度原理 268 13.3 Hadoop基础环境搭建 273 13.4 Hadoop部署模式 294 13.5 Hadoop常用操作命令 298 13.6 新手问答 300 13.7 实训:动手搭建Hadoop集群环境 301 本章小结 309 第14章 Spark入门 310 14.1 Spark概述 311 14.2 Spark核心原理 312 14.3 Spark基础环境搭建 315 14.4 Spark运行模式 317 14.5 新手问答 321 14.6 实训:动手搭建Spark集群 322 本章小结 323 第15章 Spark RDD编程 324 15.1 RDD设计原理 325 15.2 RDD编程 328 15.3 键值对RDD 335 15.4 文件读写 340 15.5 编程进阶 342 15.6 新手问答 347 15.7 实训:统计海鲜销售情况 348 本章小结 350 第16章 Spark SQL编程 351 16.1 Spark SQL概述 352 16.2 创建DataFrame对象 360 16.3 DataFrame常用API 364 16.4 保存DataFrame 370 16.5 新手问答 372 16.6 实训:统计手机销售情况 373 本章小结 375 第17章 Spark流式计算编程 376 17.1 流计算简介 377 17.2 Discretized Stream 379 17.3 Structured Streaming 385 17.4 新手问答 397 17.5 实训:实时统计贷款金额 397 本章小结 398 第5篇 项目实战篇 第18章 分析电商网站销售数据 401 18.1 目标分析 402 18.2 数据采集 405 18.3 数据分析 411 本章小结 416 第19章 分析旅游网站数据 417 19.1 目标分析 418 19.2 数据采集 420 19.3 数据分析 425 本章小结 429 第20章 分析在售二手房数据 430 20.1 目标分析 431 20.2 数据采集 434 20.3 数据分析 440 本章小结 446 附录:Python常见面试题精选 447 主要参考文献 450