数据科学方法与实践
定价:¥79.00
作者: 王建强,卫然,黄玲
出版时间:2025-11-26
出版社:机械工业出版社
- 机械工业出版社
- 9787111792192
- 1-1
- 563473
- 平装
- 2025-11-26
- 429
内容简介
本书主要讲述数据科学的方法和实践案例.全书分为5篇共16章,概述篇内容包括数据科学的起源、工作内容、工作流程、数据科学家的培养和数
据驱动的组织文化.基础知识篇内容包括统计学基础、机器学习和神经网络与深度学习.技术实践篇内容包括数据科学的流程、数据存储和处理和机器学习技术栈.数据分析篇内容包括产品分析、度量指标和A/B实验.领域应用篇内容包括搜索推荐广告模型,推荐、广告和搜索领域的应用场景以及自然语言模型与应用场景和前沿的大语言模型.
本书的读者对象为有一定的数学基础、对数据科学感兴趣或做过部分AI相关项目的读者,以及高校学习量化学科的本科生、研究生和博士生,包含并不限于数学、计算机科学、物理学、电子信息工程等专业以及正在企业从事数据分析和模型工作的读者.
本书的编写特色为方法和实践相结合,既包含方法和技能的简述,也包含在成熟行业领域的应用.编者凭借十几年的工作经历和研究成果,深入浅出地为读者描述了数据科学的现状、应用和前沿发展.
据驱动的组织文化.基础知识篇内容包括统计学基础、机器学习和神经网络与深度学习.技术实践篇内容包括数据科学的流程、数据存储和处理和机器学习技术栈.数据分析篇内容包括产品分析、度量指标和A/B实验.领域应用篇内容包括搜索推荐广告模型,推荐、广告和搜索领域的应用场景以及自然语言模型与应用场景和前沿的大语言模型.
本书的读者对象为有一定的数学基础、对数据科学感兴趣或做过部分AI相关项目的读者,以及高校学习量化学科的本科生、研究生和博士生,包含并不限于数学、计算机科学、物理学、电子信息工程等专业以及正在企业从事数据分析和模型工作的读者.
本书的编写特色为方法和实践相结合,既包含方法和技能的简述,也包含在成熟行业领域的应用.编者凭借十几年的工作经历和研究成果,深入浅出地为读者描述了数据科学的现状、应用和前沿发展.
目录
目录
前言
第1篇概述
第1章数据科学简介3
1.1数据科学的起源3
1.2数据科学的工作内容6
1.2.1决策支持7
1.2.2产品分析7
1.2.3策略模型8
1.2.4生成式AI8
1.3数据科学的工作流程简介8
1.4数据科学家的培养10
1.5数据驱动的组织文化13
1.5.1打造数据平台和工具13
1.5.2寻找数据科学的应用场景15
1.5.3合理的组织架构16
思考题18
第2篇基础知识
第2章统计学基础21
2.1统计分布22
2.1.1常用的统计概念22
2.1.2常用的统计分布23
2.2参数估计24
2.2.1矩估计24
2.2.2极大似然估计25
2.2.3贝叶斯估计25
2.3显著性检验26
2.4置信区间27
思考题29
第3章机器学习30
3.1机器学习的概念30
3.1.1损失函数31
3.1.2优化算法31
3.1.3模型训练32
3.1.4评估指标33
3.1.5回归任务的评估指标33
3.1.6分类任务的评估指标34
3.2监督学习35
3.2.1线性回归35
3.2.2逻辑斯谛回归36
3.2.3决策树36
3.2.4随机森林37
3.2.5XGBoost38
3.2.6支持向量机38
3.2.7k近邻39
3.3无监督学习41
3.3.1聚类41
3.3.2降维42
3.3.3向量搜索43
3.4强化学习46
3.4.1多臂老虎机问题46
3.4.2马尔可夫决策过程47
思考题48
第4章神经网络与深度学习49
4.1神经网络的概念49
4.1.1神经网络的基础49
4.1.2模型超参数和正则化50
4.1.3优化算法51
4.1.4批归一化51
4.2神经网络模型52
4.2.1多层感知器52
4.2.2卷积神经网络52
4.2.3循环神经网络53
4.2.4Transformer55
思考题58
第3篇技术实践
第5章数据科学的流程61
5.1数据采集61
5.1.1数据采集方式61
5.1.2数据采集要素62
5.2数据清洗62
5.3特征工程63
5.3.1特征构建63
5.3.2特征转换65
5.3.3特征选择66
5.4数据应用67
5.4.1数据可视化简介67
5.4.2数据可视化工具69
思考题70
第6章数据存储和处理71
6.1数据库系统71
6.1.1数据库系统简介71
6.1.2关系数据库74
6.1.3非关系数据库75
6.2数据仓库78
6.2.1列存储78
6.2.2数据仓库79
6.3数据湖80
6.4数据处理系统81
6.4.1数据处理系统简介81
6.4.2批处理系统83
6.4.3流处理系统85
6.5数据存储和处理系统举例:
Snowflake87
思考题88
第7章机器学习技术栈89
7.1机器学习技术栈简介89
7.2模型训练调参与评估90
7.2.1模型调参90
7.2.2模型评估92
7.3模型部署93
7.4机器学习运维93
思考题95
第4篇数据分析
第8章产品分析99
8.1培养数据的感觉100
8.1.1关联100
8.1.2间接证据101
8.1.3数据偏差101
8.1.4信号与噪声104
8.1.5相关性与因果性105
8.1.6辛普森悖论107
8.2产品分析方法108
8.2.1规模分析109
8.2.2活跃留存分析110
8.2.3画像分层与群组分析113
8.2.4漏斗分析115
8.2.5行为路径分析117
8.2.6异动归因118
8.3产品分析举例121
8.3.1内容生产机会分析121
8.3.2搜索功能分析123
思考题124
第9章度量指标125
9.1度量指标简介125
9.2度量指标分类127
9.3度量指标举例129
9.3.1内容平台的业务指标130
9.3.2双边市场的业务指标132
9.3.3自动驾驶的业务指标133
9.3.4SaaS行业常用指标134
思考题135
第10章A/B实验136
10.1A/B实验流程137
10.2A/B实验机制139
10.2.1基本用户分流139
10.2.2用户分流和设备分流140
10.2.3分层实验141
10.3复杂实验设计143
10.3.1交错测试143
10.3.2网络A/B实验144
10.4实验分析145
10.5A/B实验平台148
10.5.1实验平台概述148
10.5.2实验平台的挑战148
10.5.3企业的实验文化151
思考题151
第5篇领域应用
第11章搜索推荐广告模型155
11.1搜索、推荐、广告模型简介155
11.2信息检索技术157
11.3传统机器学习模型162
11.3.1协同过滤162
11.3.2矩阵分解163
11.3.3逻辑斯谛回归和GBDT+LR164
11.3.4因子分解机165
11.3.5FTRL167
11.4深度学习模型168
思考题170
第12章推荐领域的应用场景172
12.1推荐系统简介172
12.1.1推荐系统的历史172
12.1.2推荐产品的应用场景174
12.1.3算法以外的分发方式175
12.1.4推荐系统的三大支柱:数据、
模型和系统176
12.2推荐系统176
12.2.1候选集召回177
12.2.2过滤181
12.2.3排序181
12.2.4优化目标和重排183
12.3推荐系统的评估185
12.3.1推荐业务指标185
12.3.2推荐模型指标186
12.3.3推荐结果指标186
12.4推荐场景-内容187
12.4.1内容供给187
12.4.2兴趣探索188
12.5推荐场景-电商189
12.5.1Stitch Fix的商业模式189
12.5.2Stitch Fix的推荐算法191
12.5.3Stitch Fix推荐算法的挑战192
12.6推荐系统的挑战与前沿195
12.6.1推荐数据的挑战195
12.6.2推荐目标与评估的挑战195
思考题197
第13章广告领域的应用场景198
13.1广告系统简介198
13.1.1互联网广告简介198
13.1.2广告产业链200
13.1.3广告层级组织203
13.1.4广告计费方式204
13.2广告系统模型205
13.2.1广告系统概述205
13.2.2广告定向与召回模型206
13.2.3广告排序与CTR预估模型209
13.2.4广告预算模型212
13.3广告系统评估214
13.3.1业务指标214
13.3.2A/B测试215
13.4广告系统前沿215
思考题216
第14章搜索领域的应用场景217
14.1搜索引擎简介217
14.1.1搜索引擎的发展218
14.1.2搜索产品端的展现219
14.2搜索引擎模块220
14.2.1内容索引221
14.2.2Query理解222
14.2.3候选集召回227
14.2.4搜索排序228
14.3搜索引擎评估232
14.3.1评估的挑战233
14.3.2评估指标234
14.3.3主客观评估体系236
14.3.4主客观评估的优劣势238
思考题239
第15章自然语言模型与应用场景240
15.1自然语言处理历史240
15.2自然语言处理场景244
15.3自然语言处理流程248
15.3.1分词248
15.3.2词嵌入和句嵌入251
15.3.3编码器-解码器架构和
Transformer253
15.3.4结果后处理257
15.4自然语言模型评估258
思考题259
第16章大语言模型260
16.1大语言模型简介261
16.2大模型预训练与微调265
16.3检索增强式生成267
16.4大语言模型的前沿挑战268
16.4.1数据挑战269
16.4.2对齐270
16.4.3幻觉271
16.4.4大模型推理成本过高272
16.4.5伦理、安全与法规273
思考题274
参考文献275
前言
第1篇概述
第1章数据科学简介3
1.1数据科学的起源3
1.2数据科学的工作内容6
1.2.1决策支持7
1.2.2产品分析7
1.2.3策略模型8
1.2.4生成式AI8
1.3数据科学的工作流程简介8
1.4数据科学家的培养10
1.5数据驱动的组织文化13
1.5.1打造数据平台和工具13
1.5.2寻找数据科学的应用场景15
1.5.3合理的组织架构16
思考题18
第2篇基础知识
第2章统计学基础21
2.1统计分布22
2.1.1常用的统计概念22
2.1.2常用的统计分布23
2.2参数估计24
2.2.1矩估计24
2.2.2极大似然估计25
2.2.3贝叶斯估计25
2.3显著性检验26
2.4置信区间27
思考题29
第3章机器学习30
3.1机器学习的概念30
3.1.1损失函数31
3.1.2优化算法31
3.1.3模型训练32
3.1.4评估指标33
3.1.5回归任务的评估指标33
3.1.6分类任务的评估指标34
3.2监督学习35
3.2.1线性回归35
3.2.2逻辑斯谛回归36
3.2.3决策树36
3.2.4随机森林37
3.2.5XGBoost38
3.2.6支持向量机38
3.2.7k近邻39
3.3无监督学习41
3.3.1聚类41
3.3.2降维42
3.3.3向量搜索43
3.4强化学习46
3.4.1多臂老虎机问题46
3.4.2马尔可夫决策过程47
思考题48
第4章神经网络与深度学习49
4.1神经网络的概念49
4.1.1神经网络的基础49
4.1.2模型超参数和正则化50
4.1.3优化算法51
4.1.4批归一化51
4.2神经网络模型52
4.2.1多层感知器52
4.2.2卷积神经网络52
4.2.3循环神经网络53
4.2.4Transformer55
思考题58
第3篇技术实践
第5章数据科学的流程61
5.1数据采集61
5.1.1数据采集方式61
5.1.2数据采集要素62
5.2数据清洗62
5.3特征工程63
5.3.1特征构建63
5.3.2特征转换65
5.3.3特征选择66
5.4数据应用67
5.4.1数据可视化简介67
5.4.2数据可视化工具69
思考题70
第6章数据存储和处理71
6.1数据库系统71
6.1.1数据库系统简介71
6.1.2关系数据库74
6.1.3非关系数据库75
6.2数据仓库78
6.2.1列存储78
6.2.2数据仓库79
6.3数据湖80
6.4数据处理系统81
6.4.1数据处理系统简介81
6.4.2批处理系统83
6.4.3流处理系统85
6.5数据存储和处理系统举例:
Snowflake87
思考题88
第7章机器学习技术栈89
7.1机器学习技术栈简介89
7.2模型训练调参与评估90
7.2.1模型调参90
7.2.2模型评估92
7.3模型部署93
7.4机器学习运维93
思考题95
第4篇数据分析
第8章产品分析99
8.1培养数据的感觉100
8.1.1关联100
8.1.2间接证据101
8.1.3数据偏差101
8.1.4信号与噪声104
8.1.5相关性与因果性105
8.1.6辛普森悖论107
8.2产品分析方法108
8.2.1规模分析109
8.2.2活跃留存分析110
8.2.3画像分层与群组分析113
8.2.4漏斗分析115
8.2.5行为路径分析117
8.2.6异动归因118
8.3产品分析举例121
8.3.1内容生产机会分析121
8.3.2搜索功能分析123
思考题124
第9章度量指标125
9.1度量指标简介125
9.2度量指标分类127
9.3度量指标举例129
9.3.1内容平台的业务指标130
9.3.2双边市场的业务指标132
9.3.3自动驾驶的业务指标133
9.3.4SaaS行业常用指标134
思考题135
第10章A/B实验136
10.1A/B实验流程137
10.2A/B实验机制139
10.2.1基本用户分流139
10.2.2用户分流和设备分流140
10.2.3分层实验141
10.3复杂实验设计143
10.3.1交错测试143
10.3.2网络A/B实验144
10.4实验分析145
10.5A/B实验平台148
10.5.1实验平台概述148
10.5.2实验平台的挑战148
10.5.3企业的实验文化151
思考题151
第5篇领域应用
第11章搜索推荐广告模型155
11.1搜索、推荐、广告模型简介155
11.2信息检索技术157
11.3传统机器学习模型162
11.3.1协同过滤162
11.3.2矩阵分解163
11.3.3逻辑斯谛回归和GBDT+LR164
11.3.4因子分解机165
11.3.5FTRL167
11.4深度学习模型168
思考题170
第12章推荐领域的应用场景172
12.1推荐系统简介172
12.1.1推荐系统的历史172
12.1.2推荐产品的应用场景174
12.1.3算法以外的分发方式175
12.1.4推荐系统的三大支柱:数据、
模型和系统176
12.2推荐系统176
12.2.1候选集召回177
12.2.2过滤181
12.2.3排序181
12.2.4优化目标和重排183
12.3推荐系统的评估185
12.3.1推荐业务指标185
12.3.2推荐模型指标186
12.3.3推荐结果指标186
12.4推荐场景-内容187
12.4.1内容供给187
12.4.2兴趣探索188
12.5推荐场景-电商189
12.5.1Stitch Fix的商业模式189
12.5.2Stitch Fix的推荐算法191
12.5.3Stitch Fix推荐算法的挑战192
12.6推荐系统的挑战与前沿195
12.6.1推荐数据的挑战195
12.6.2推荐目标与评估的挑战195
思考题197
第13章广告领域的应用场景198
13.1广告系统简介198
13.1.1互联网广告简介198
13.1.2广告产业链200
13.1.3广告层级组织203
13.1.4广告计费方式204
13.2广告系统模型205
13.2.1广告系统概述205
13.2.2广告定向与召回模型206
13.2.3广告排序与CTR预估模型209
13.2.4广告预算模型212
13.3广告系统评估214
13.3.1业务指标214
13.3.2A/B测试215
13.4广告系统前沿215
思考题216
第14章搜索领域的应用场景217
14.1搜索引擎简介217
14.1.1搜索引擎的发展218
14.1.2搜索产品端的展现219
14.2搜索引擎模块220
14.2.1内容索引221
14.2.2Query理解222
14.2.3候选集召回227
14.2.4搜索排序228
14.3搜索引擎评估232
14.3.1评估的挑战233
14.3.2评估指标234
14.3.3主客观评估体系236
14.3.4主客观评估的优劣势238
思考题239
第15章自然语言模型与应用场景240
15.1自然语言处理历史240
15.2自然语言处理场景244
15.3自然语言处理流程248
15.3.1分词248
15.3.2词嵌入和句嵌入251
15.3.3编码器-解码器架构和
Transformer253
15.3.4结果后处理257
15.4自然语言模型评估258
思考题259
第16章大语言模型260
16.1大语言模型简介261
16.2大模型预训练与微调265
16.3检索增强式生成267
16.4大语言模型的前沿挑战268
16.4.1数据挑战269
16.4.2对齐270
16.4.3幻觉271
16.4.4大模型推理成本过高272
16.4.5伦理、安全与法规273
思考题274
参考文献275















