◇◇新语丝(www.xys.org)(xys2.dxiong.com)(www.xysforum.org)(xys-reader.org)◇◇

　　对小张、晓舟、寻正有关概率问题的第三次回复

　　作者：奥卡姆剃刀

　　1、小张网友

　　首先，你拿山人网友的“小时降雨概率0.1且日降雨概率0.4”说事是不妥的，
因为这根本就是山人网友对《你的预测有多准？》一文的误读。

　　原文曾说道【英国的小时降雨基础概率是0.1，就是说，在任何一个小时内，
降雨的可能性均为十分之一......为什么这么说呢？假设你一年内会进行100次
这样的"一小时购物"。10%的小时降雨基础概率意味着你的90次购物之旅不会碰
上下雨，另外10次则没那么幸运。在这10次下雨天气中，天气预报将会准确预报
其中的8次，因为它的准确率为80%.】这已经非常明确的指明，小时降雨概率是
相互独立且等概的，而且指明了80%的准确率就是说P(预报有雨|下雨了)=P(预报
无雨|没下雨)=0.8。

　　原文还举了另一个例子【日降雨的基础概率是0.4，这就使得在预报有雨的
日子里，下雨的概率比不下雨的概率高出近两倍（译者注：给定预报的准确率为
80%，此时当天下雨的概率是73%，是不下雨的概率27%的近三倍）。】这个例子
是作者引自《Mathematics Today》的、与小时降雨量0.1的例子毫无关系的新例
子，作者通过把这个新例子与其自编的小时降雨概率0.1的例子对照，想说明的
是“一件事越常见，就越容易准确地预测”这个结论。

　　现在分析日降雨量0.4的新例子：因为P(日降雨)=0.4，且P(预报有雨|下雨
了)=0.8，所以P(预报有雨)=P(预报有雨|下雨了)×P(下雨了)+P(预报有雨|没下
雨)×P(没下雨)=0.8×0.4+0.2×0.6=0.44，进而根据贝叶斯公式可得：P(下雨
了|预报有雨)×P(预报有雨)=P(预报有雨|下雨了)×P(下雨了)，即P(下雨了|预
报有雨)×0.44=0.8×0.4，得P(下雨了|预报有雨)=0.73

　　可见，在预测准确率均为80%的条件下，老例子（小时降雨率为0.1）的预报
有雨后果真会下雨的概率仅仅为30%，而新例子（日降雨概率0.4）的预报有雨后
果真会下雨的概率却高达73%，其原因就在于在新例子中下雨是更常见的，因此
作者得出结论：【可以这么说，一件事越常见，就越容易准确地预测。】。令人
遗憾的是，不少网友没搞清楚“小时降雨概率0.1”与“日降雨0.4”是两个不同
的例子的前提条件，当然更没有搞明白作者有意拿两个例子做比较来说明基础概
率效应问题的这个意图。

　　其次，小张网友指出【看到小时降雨的概率是0.1，一些人立刻得出：“连
续k个小时降雨的概率为0.1的k次方”和“小时无降雨概率为0.9，则连续k个小
时无降雨的概率为0.9的k次方”等错误的结论。错误的原因是以为小时降雨问题
是一个等概基本事件组（或属于古典概型），而实际上并不是】。退一步讲，即
使小张网友没有看原文，而是基于的山人网友的错误理解，那上述的指责也是不
对的，因为上述表述的关键在于小时降雨的概率是否相互独立，而不是是否等概，
因为即使相互不独立，其概率也可以是等概的。

　　第三，小张网友指出【因此我想，不如将山人的问题中的条件改为：日降雨
概率为0.4，雨天的小时降雨概率为0.25。说得完整一些是：①在将每日是否降
雨视为基本事件时，这些基本事件相互独立且降雨概率都是0.4；②在将每个小
时是否降雨视为基本事件时，在降雨日内，这些基本事件相互独立且降雨概率都
是0.25。改动后的条件没有违背山人的原意，但好理解一些，可能就不会有人认
为两个先验概率有矛盾】。我就认为你给出的这两个先验概率有矛盾，而且是不
可调和的矛盾。即只要是降雨概率为0.4，那么雨天的相互独立的小时降雨概率
就不可能是0.25，反之亦然。先请你思考，如果你有不同意见，下次我再论证。

　　第四，小张网友指出【我认为一种正确的算法是：某一小时的降雨概率＝当
日有降雨的概率×降雨天的小时降雨概率。】。这种算法是错误的，它只有在日
降雨概率为1时才能成立。当日有降雨的概率×降雨天的小时降雨概率，得到的
是日降雨且小时降雨的联合概率，而不是小时降雨概率。用表达式表示为P(日降
雨)×P(小时降雨|日降雨)=P(日降雨.小时降雨)。

　　2、晓舟网友

　　晓舟网友指出【R. Matthews的这段话实际上是不严密的，从accuracy等于
80%，并不能推出虚报率等于20%！即便如我前文所说的，R. Matthews是把
accuracy当成召回率用，但召回率为80%，也不能推出虚报率为20%。我把虚报率
写成1-80%，并非是认为从定义上它等于1-召回率，而只是按照R. Matthews这段
话给出的数据来使用而已。】

　　你7月27日的文中，对召回率A/(A+C)、虚报率B/(B+D)、漏报率C/(A+C) 给
出了非常明确的定义，而且认定原作者所称的80％的准确率就是指召回率，这些
我都同意。但作为召回率A/(A+C)的互斥事件概率，当然只能是漏报率C/(A+C)而
不可能是虚报率B/(B+D)，因为两个互斥事件概率和为1，召回率A/(A+C)+漏报率
C/(A+C)=1，而与你所谓的虚报率B/(B+D)无关，请你再认真思考一下。

　　晓舟网友还指出【我这里并不是要作者定义什么叫召回率、什么叫虚报率、
什么叫正确率，而是希望作者预先交待，他讨论的这个问题中，召回率等于多少，
虚报率等于多少。而且，严格定义并不一定就非得采用数学符号的方式，比如这
样来写：“现在的天气预报能够做到，在实际有雨的天中，80%都能正确地提前
预报有雨，在实际没有雨的天中，也能80%正确地提前预报没雨……”】

　　请注意，原文说道【英国的小时降雨基础概率是0.1，就是说，在任何一个
小时内，降雨的可能性均为十分之一......为什么这么说呢？假设你一年内会进
行100次这样的"一小时购物"。10%的小时降雨基础概率意味着你的90次购物之旅
不会碰上下雨，另外10次则没那么幸运。在这10次下雨天气中，天气预报将会准
确预报其中的8次，因为它的准确率为80%.】。“在这10次下雨天气中，天气预
报将会准确预报其中的8次，因为它的准确率为80%.”这句话难道表述得还不够
清晰吗？难道还不足以令你认识到80%指的就是“在实际下雨的天中，80%都能正
确地提前预报有雨”吗？我感到，Robert Matthews这篇科普文是非常精彩的，
虽然使用的都是通俗的科普语言，但该交待的也都交代清楚了，只是你没有认真
读懂而矣。

　　3、寻正网友

　　首先感谢寻正网友花了很多时间来跟我讨论，我觉得这样才有意思。寻正网
友对自己的一些概率说法给出了解释，这些解释应该在上文使用时就给出。即使
现在的解释，也是大有问题的，例如寻正网友指出【阳性事件准确率：有雨是阳
性事件，无雨是阴性事件，针对有雨进行预测，其预测的准确度（或者说准确概
率），就是阳性事件准确率，比如预测10次，中了8次，就叫80%的准确率】，这
个解释就很不妥，因为事件本身并不存在准确率，存在的是概率（或称几率），
而对事件是否会发生的推测，才会有准确率的说法。

　　其次，寻正网友指出【奥兄把P（报晴｜雨）直接安在P（报雨｜晴）上面了，
所以得了0.26的P（报雨）概率。或许奥兄查过原文，有额外信息交待P（报雨｜
晴）＝P（报晴｜雨）？】。这就是对原文的理解问题了，原文的雨和晴是互斥
关系，报雨和报睛也是互斥关系，即不下雨就是晴，不报雨就是报晴，雨天报了
雨和晴天报了晴就算正确，而雨天报了晴和晴天报了雨就算错误。我的30%是规
规整整推导出来的，过程清晰明确，每一步都可以质疑和分析，你楞称之有凑数
之嫌，这也太不公道了吧，呵呵。另外，关于原文中的蓝绿车问题，与这个天气
预报问题的性质完全相同，也是一个基础概率效应的问题，我在第一篇帖文中也
给出了全部的推导过程，而且结论与作者给出的结论完全相同，这也是凑出来的
数吗？呵呵。

　　寻正网友还指出【这种教科书式的计算是没有意义的，因为下雨与否不是随
机事件，这些纯概率计算得到的概率是靠不住的，天气有连续性，前一个小时的
天气对后一个小时有极大的预报价值，而气象学家做天气预报，肯定用的不是简
单的概率计算。】。气象学家做天气预报肯定用的不是简单的古典概型计算，使
用的是现代概率理论，在预测方法中是最靠得住的。《概率论》作为数学的一个
分支，在刚出现时曾受到了不少质疑，因为它与传统的确定性数学非常不同，而
且初始内容也只包括古典概型，随着概率论的发展，产生了非常丰富的现代概率
理论，例如随机过程、估值理论、运筹理论等等，它们在无法明确事件因果关系
的复杂事件预测中，发挥了重要作用，使我们在分析客观规律中除了解析法外，
又多了一个统计分析法。

　　寻正网友指出【奥卡姆剃刀对预报准确度创造性地解释......】，这种调侃
是无效的，因为原作者已经对80%的预报准确度进行了非常清晰和准确的解释，
见本文1、小张网友的第二段和2、晓舟网友的最后一段。对原作者这种解释的合
理性我不做评价，我的解释并不是创造性的，而仅仅是正确的引用了原作者的解
释而矣，但你并没有认识到这一点。

　　4、我的感想

　　这场概率讨论非常有意思，我现在放假在家，也因此有时间参与其中。现在
反思一下，我的帖文也有不严谨的地方，例如把“先验概率”改写成“前向概率”
就更不容易引起歧义了，还有华理野猫网友给我指出的笔误，但其它的错误我还
没有发现，欢迎大家继续指正。

　　我认为很多网友并没有真正看懂Robert Matthews这篇非常精彩的科普短文，
也没有理解他举这些例子的用意，也没有真正理解基础概率不平衡对预测结果正
确性的巨大影响。我曾跟一个医学专家称，虽然你对精神病的诊断正确性很高，
而我对此一窍不通，但由于精神病患者的比例很低（假设为万分之一），在大街
上随便找个人进行诊断，你可以使用全部的医学资源和方法，而我就闭着眼睛给
出“不是精神病”的诊断结论，那你我的诊断正确概率就相差无几，这个例子说
明了Robert Matthews想说明的道理。

　　寻正批评我骄傲，我很接受。我是高校教师，多年的教学生涯养成了好为人
师的坏习惯，我本人也清楚这一点。在现实生活中跟学生或同事讨论问题，即使
心里再认为对方荒谬，我也会说“您说的非常有道理，我很受启发，但
是......”。但网络交流的态度就大相径庭了，客套话全部省略了，直接就说
“但是”了，呵呵。

　　熟悉我的网友们知道，近年来我常混迹于新华网的科技论坛，与人激烈辩论
无数，得罪的网友没有100也是80了，《新语丝》的网友素质当然比科技论坛的
网友强太多了，我希望大家更多关注我论理的正确性而不是态度。:)

(XYS20080731)

◇◇新语丝(www.xys.org)(xys2.dxiong.com)(www.xysforum.org)(xys-reader.org)◇◇