注册 登录 进入教材巡展
#
  • #

出版时间:2025-03-21

出版社:机械工业出版社

以下为《事实与似实:数据科学家教你辨虚实》的配套数字资源,这些资源在您购买图书后将免费附送给您:
  • 机械工业出版社
  • 9787111775881
  • 1-1
  • 547416
  • 平装
  • 2025-03-21
  • 187
内容简介
本书力求用丰富的实际案例来介绍数据科学的工具以及它的应用,特别是通过数据来判断事件的真伪,教会读者像数据科学家一样的思考。
全书共17章,每章均包含具有不同侧重点的案例分析,用以说明数据科学家如何发现似实,并拒绝似实伤害。本书内容主要分为四部分,前7章为第1部分,描述如何质疑、审查证据,如何收集、分析并处理缺失数据,避免数据操控等。第2部分为第8~11章,讨论数据呈现中的问题并通过创新方法取得研究新发现。第3部分为第12~17章,聚焦教育领域,再次利用证据证明了发现似实谬误之易。第4部分为结论。
本书是数据科学的应用研究成果,可作为数据科学爱好者的科普读物。
目录
导读
译者序
前言与致谢
引言
第1部分像数据科学家一样思考
第1章72法则用于财富、事业和汽车油耗/4
ⅩⅫ
指数增长是人类直觉无法理解的。在本章中,我们从历史和当前经验中抽取了几个例子来进行说明,并介绍了常用于帮助理财师理解指数增长的一则简单的经验法则,同时展示了如何更广泛地使用它解释一系列其他问题。72法则说明了在工具箱中常备这样的“规则”以备不时之需是多么重要!
第2章钢琴大师与4分钟1英里的记录/9
极端观察记录出现的频率与观察样本规模必然相关。在过去的一个世纪里,音乐大师的数量激增,这其中包括了大量的高中生演奏者,他们能够演奏过去除了最有才华的艺术家之外其他人都不敢挑战的作品。在这一章,我们发现用一个简单的数学模型就能解释这一结果,以及为什么跑步运动员突破了4分钟1英里的成绩不再是新闻。
第3章幸福与因果推理/13
这里我们将介绍鲁宾的因果推理模型,它指导我们集中精力衡量一个变量对另一个变量的因果效应,而不是通过捕风捉影盲目寻找产生该效应的原因。这种重新定位使我们自然而然地将随机的控制性实验作为一种重要的科学方法。为说明该方法的作用,我们阐述了如何利用它解开缠绕在幸福感和学业表现之间难解的戈尔迪之结。它如同一束强劲的光,照亮了无根据主张的阴暗角落。
目录
第4章因果推理与死亡/20
在现实中,计算因果效应大小的道路因为无处不在的数据缺失而变得坎坷。本章将讨论经常发生的意外事件导致精心设计的实验失衡的具体情况。我们列举了一个医学实验案例,由于一些病患在实验进程中不幸去世,我们必须排除这些干扰数据,估算出治疗的因果效应。鲁宾模型又一次帮助我们找到了解决方案,一旦你掌握它,它的指引会出乎意料地显著而又细致微妙。
ⅩⅩⅢ
第5章实验回答四个恼人的问题/33
公共教育领域需要采用多种有效方法来进行因果推理。然而,我们发现围绕公共教育话题到处充斥着似实。由于公共教育的有效性常通过测试进行衡量,因此,出现与测试相关的许多话题并不奇怪,然而问题双方的激烈争论往往压倒了事实。我们讨论了四个问题,有的已经在法庭上被裁定了(非决定性裁决),还有一些在本章编写的过程中正进入诉讼程序。
第6章观察研究中的因果推论:压裂法、注入井、地震以及俄克拉荷马州/50
开展实验并不一定总是可行的,我们有时不得不进行观察研究。在过去的6年中,俄克拉荷马州的较强地震(30级或以上)从每年不到2次增加至几乎每天2次。在本章中,我们将探讨如何利用观察研究来估算压裂法以及高压注水处理废水与地震活动的因果效应。尽管政府官员和石油工业代表极力否认,但这种因果关系的证据却是压倒性的。
ⅩⅩⅣ
第7章生活中的艺术:玩转缺失数据算法/61
数据科学家们面临的最大问题是如何处理缺失的观测值(或者缺失数据)。在这一章,我们了解到那些最初用来处理不可避免的数据缺失的方法看起来似乎完全合情合理,却被不适当地利用来钻体系的漏洞。另外,本章还说明了如何用最有效的方法来处理这些闹剧。
第2部分像数据科学家一样沟通
第8章共情在沟通设计中的关键作用:以基因测试为例/70
图形显示也许是数据科学所拥有的最重要的工具,能让数据自己向数据科学家传递其蕴含的意义。它们让科学家与所有人都能畅通地交流。迄今,任何希望能有效沟通的人都应具备一个最重要的态度,那就是要有强烈的同理心。在这一章中,我们讨论了两种不同的交流方式,并展示了从普林斯顿大学录取通知书中学到的道理,如何有效地用于传达显示携带突变基因、警示女性患癌风险高的检测结果。
第9章改进媒体和我们自己的数据呈现/79
在科学家和大众之间的交流中,两者的影响是双向的。我们看到科学文献首创的图形显示方法被媒体所使用;如今,反过来,科学家们却不得不缓慢地去追赶媒体进步的脚步了。
第10章由内而外的图表/95
高维数据(涉及两个以上变量的数据)的可视化显示,最大的设计挑战之一就是二维平面载体(一张纸或一个电脑屏幕)的局限性。在这一章中,我们将说明如何使用由内而外的图示来揭示这些数据集中可能包含的许多秘密。我们通过例子比较了6位棒球明星在8个变量上的表现。
ⅩⅩⅤ
第11章150年的道德统计:绘制证据以影响社会政策/104
任何将地理变量与其他指标(比如各州选举结果或人口普查区域各区人口)相结合的数据集都亟需一张地图。地图是最古老的图形显示,现存的例子有来自古埃及尼罗河测量绘制的地图。地图显然更方便直观表示位置,使用二维的绘图平面来表示地理信息。过了很久之后,人们才在地理背景上添加了许多其他非地理变量。在本章中,我们引用了19世纪英国律师和统计学家约瑟夫·弗莱彻的作品,他在英格兰和威尔士的地图上描绘了当时文盲、私生子、犯罪和不负责任的婚姻的情况。我们对他的这个作品进行了广泛讨论,包括弗莱彻做了什么、为什么以及如何通过更现代的展示方法来帮助他实现社会公正的目标。
第3部分数据科学工具在教育领域中的应用
公共教育涉及每个人。我们都曾缴纳本地财产税来为教育买单,而且几乎所有人,要么通过自己,要么通过孩子参与了公共教育。然而,很难想象在这样一个有着广泛基础的领域中,同样充斥着产生于似实的各种错误观点。在这一部分,我们将考察五个不同的公众舆论焦点。同样,这些观点都是基于逸事和先例而非证据支持。每一章我们都将介绍其中一个观点,然后再提出可以广泛获取的证据去明确反驳它。本部分与第1、2部分紧密相连,前面两部分介绍的方法用于强化我们的质疑精神,而本部分旨在提供一种基于证据的方法用以评估观点的可信度。
第12章等待阿基里斯/124
美国的教育制度常常因学生学业表现不佳且根深蒂固的白人与黑人学生分数差距而饱受诟病。在这一章中,我们使用证据来澄清这两个问题,这一过程让我们发现,情况远没有被似实驱动的批评者说的那么恶劣。
ⅩⅩⅥ
第13章终身教职价值几何?/128
公共教育的批评者通常将教育系统的缺陷归咎于教师终身制。在本章,我们追溯了终身教职制的起源,并提供了证据说明,要取消它可能会超出批判者的预期,不仅费用昂贵而且效果一般。
第14章拙劣的作弊检查:看起来像,就一定是/135
每当考试能带来重大影响时,就可能有人作弊。为了限制作弊行为,学生的成绩会受到严格的审查,作弊的学生有时会受到严厉的处罚。在这一章中,我们描述了两个例子,其调查的热情本身超过了其所支持的所谓违规的证据。
第15章没有不等于零:缺失数据、满意的年度进步指标和孟菲斯特许学校的真实故事/143
目前越来越多的时候,学校的业绩很大程度上取决于学生的考试成绩。在这一章中,我们了解到孟菲斯的一所特许学校因为学生的平均分数太低而被裁定再审其办学资格。不幸的是,这一明显的缺陷并不是学校造成的,而是这座城市对缺失数据的不当处理造成的。
第16章SAT考试改革之思:大学理事会在除掉斗牛犬吗?/149
美国现代高考已经存在了90年,在这一时期,考试的变化、评分和应用都在稳步进行。在这一章中,我们使用证据和统计思维来讨论最近大学理事会宣布的SAT三大变化。其中两项改变几乎不会带来任何实质效果,但第三项却属于重大改变。我们假设选择这些特殊的变化的原因,最后得出结论:大学董事会很可能采用了20世纪70年代达特茅斯学院校长约翰·凯梅尼为实现男女同校计划而制定的战略。
第17章只因少了一颗钉子:为什么无价值的分项分数可能严重阻碍西方文明的进步?/158
在2010年的美国人口普查中,人均统计成本为40美元。这似乎是一个奢侈的数字,因为美国人口的变化可以通过每13秒增加一个人的速度来进行准确估计。然而,由于人口普查还提供了许多小区域的统计数据估计,因此这个价格是合理的。在这一章中,我们从同样的角度来研究测试的成本,并得出结论:过长的测试所产生的机会成本可能过大,以至于可能会严重阻碍进步。
第4部分结论:在家尝试
参考文献/176