- A+
【贝叶斯定理——Bayes' Theorem】
假设某一疾病的发病率为0.1%(即在该病在大量人群中的患病率为0.1%)。现已设计出一种检测这种疾病的方法。该测试不会产生假阴性结果(也就是说,任何患有该疾病的人检测结果都将为阳性),但检测结果为假阳性的概率为5%(约5% 的受试者会被检测出阳性,即使他们没有得这种病)。假设随机选择一个人参加测试,结果呈阳性,那么这个人患病的可能性有多大?
事实上,有两种方法可以解决这个问题。其中一个涉及到概率论中的一个重要结果——贝叶斯定理(Bayes' Theorem)。现在,我们将首先使用其中一种更直观、更易懂方法来理解这个问题,稍后我们将讨论贝氏定理。
让我们把问题中的信息逐一分解:
- 假设某一疾病的发病率为0.1%(即在该病在大量人群中的患病率为0.1%)。0.1%可以转换为小数0.001,0.001也可以被重写为一个分数: 1/1000。这意味着大约每1000人中就有1人患有这种疾病。(如果愿意的话,也可以将其写成 P (患病) = 0.001)。
- 现已设计出一种检测这种疾病的方法。该测试不会产生假阴性结果(也就是说,任何患有该疾病的人检测结果都将为阳性)。由此我们可以知道:每个患病的人检测结果都是阳性,或者说每个检测结果为阴性的人都没有患病。(我们可以将其写成 P (阳性) = 1)。
- 检测结果为假阳性的概率为5%(约5% 的受试者会被检测出阳性,即使他们没有得这种病)。这里可以理解为,每100个接受检测但没有患病的人中(受试者测试结果为阴性),就会有5个人即使没有患病,检测结果也为阳性。(我们可以将其写成 P (阳性 | 无病) = 0.05)。
- 假设随机选择一个人参加测试,结果呈阳性,那么这个人患病的可能性有多大?这里我们要计算 P (患病 | 阳性)。我们已经知道 P (阳性 | 疾病) = 1,但是请注意,如果条件被转换,其概率实际上是并不相同的。
让我们建立一个合理的假设,先不通过我们已经得到的概率来思考问题,而是根据上面描述出的关系代入现实来进行考量。
首先,假设我们随机选择1000人并进行测试。那么预计会有多少人得这种病呢?由于人群中患有这种疾病的概率约为1/1000,1000人中的1/1000是1,(1是一个非常方便计算的数字,正因如此我们才会选择1000,)所以最终结果为:1000名测试对象中只有1人真正患有这种疾病,其余999人则没有。
此外我们还知道,在所有没有这种疾病的人中,有5% 的人检测结果呈阳性(假阳性,一般指因为种种原因把不具备阳性症状的人检测出阳性的结果)。目前有999名无病患者,因此预计将会有 0.05 * 999 = 49.95(大约50)名无病患者的检测结果呈阳性,尽管实际上他们并不患有这种疾病。
现在让我们回到最初的问题上,计算 P (疾病 | 阳性)。在我们的例子中,有51个人的测试结果呈阳性(一个真正患有该病的人 + 50个测试结果呈阳性但实际上没有患病的人)。这些人中只有一个有这种病,所以
P (疾病 | 阳性) ≈ 1/51 ≈ 0.0196 = 1.96%
或许我们可以用更精准的数据来得到更精准的概率,即将样本数量扩大到原来的100倍
P (疾病 | 阳性) ≈ 100/(100+4995) ≈ 0.0196 = 1.96%
得到的结果差不多,仍然约等于1.96% 。
这样的结果是否让你感到惊讶呢? 因为这意味着超过98%检测结果呈阳性的人没有这种疾病!
回到正确的答案上。在所有检测呈阳性的人中,超过98% 的人没有这种疾病。如果你对体重一个测试呈阳性的人患病概率的猜测与正确答案(约2%)大相径庭,不要感到气馁。事实上,在25年前,哈佛医学院的医生和医学院学生也面临着同样的问题,研究结果发表在1978年的《新英格兰医学杂志》上。只有大约18% 的参与者得到了正确的答案;而在1999年2月20日发表的《经济学人》中,正确率也不过20% 。其余的大多数人认为答案应该接近95% 或者就是95% ,也许是因为他们被5% 的假阳性率误导了。
所以至少你应该感觉好一点,一群顶尖的医生也没有得到正确的答案(假设你认为答案要高得多)。然而这个发现的重要性以及这些年来其他研究的类似结果其实并不在于让数学学生感觉更好,而是在于它有非常大的可能避免在病人护理中带来的灾难性后果。加入医生认为阳性检测结果几乎可以确定病人患有疾病,他们可能会对实际完全健康的病人开始一种不必要甚至可能有害的治疗方案。更糟糕的是,在艾滋病患病初期,HIV 阳性往往等同于对患者宣判了死刑,患者可能因此采取极端行动,比如自杀。
这个例子在下方的视频中进行了详细的分析。
正如我们在这个假设的例子中看到的,治疗检测呈阳性的患者的最负责任的行动方案是告诉患者他们很可能没有这种疾病,并通过进一步的、更可靠的检测来验证诊断。
在《新英格兰医学杂志》的这项研究中医生和医学生表现不佳的原因之一是,当这些问题仅仅出现在他们学习的统计学课程中时,他们才会通过使用贝叶斯定理(Bayes' Theorem)来解决,该定理如下:
贝叶斯定理:
在我们之前的例子中,表达形式如下
代入数据得
所得结果同上。
问题的关键在于,你(或者是一个典型的学生,甚至一个典型的数学教授)更有可能记住原始的解,而不是记住贝叶斯定理。心理学家,《计算风险: 如何知道数字欺骗了你》一书的作者 Gerd Gigerenzer,主张用原始解决方案中的方法(Gigerenzer 称之为“自然频率”)来代替贝叶斯定理。Gigerenzer 进行了一项研究,发现那些受过“自然频率”方法教育的人比那些受过贝叶斯定理教育的人能够回忆起来的时间要长得多。当一个人考虑与这种计算相关的可能的生死后果时,听从他的建议似乎是明智的。
例题
某种疾病的发病率为2% 。如果针对该疾病测试的假阴性率为10% ,假阳性率为1% ,试计算一个测试结果为阳性的人实际患病的概率。
Solution:展开
假设有10000人接受了测试。在这10000人中,有200人患有这种疾病;其中10% ,即20人,检测结果为阴性,其余180人检测结果为阳性。在另外9800名没有患病的人中,有98人检测结果呈阳性。因此,在总共278名检测呈阳性的人中,有180人真正患有这种疾病。因此
P (疾病 | 阳性) ≈ 180/278 ≈ 0.647 = 64.7%
所以,约65% 检测呈阳性的人真正得了这种病。
直接使用贝叶斯定理会得到同样的结果:
P (疾病 | 阳性) ≈ (0.02)*(0.90)/[(0.02)*(0.90)+(0.98)*(0.01)] ≈ 0.647 = 64.7%
