◇◇新语丝(www.xys.org)(xys2.dxiong.com)(www.xysforum.org)(xys-reader.org)◇◇   做预测的数字游戏   寻正   讲解一个数学问题,非得要演变成我行你不行的争论,真是有趣,那位“小 张”把别人观点抄上重写一遍,然后把大家都教训一通,奥卡姆剃刀也变得骄傲 起来了,“你看得头大是你对相关理论掌握得不好”,真的吗?我理解是,我看 得头大,是因为即使你正确,也没写清楚,丢三拉四,说不定你还可能搞错了呢。   概念的组合运用,向来是写作的基本功,我用“抽样概率”、“基本概率”、 “概率压缩”、“阳性事件准确率”、“随机概率”等词,我不知道是否规范, 当然,如果奥兄能够指点我规范的概念是什么,那就感激不尽了,说我是民科, 我还真不敢还嘴,所谓民科,专业外的愈在专业问题上露一手的人,那样说来, 本人还真是个民科。咱们去当民科,或许会对民科一类人物添点谦虚成份,也算 一件功德。在我解释我创造的概念以前,也顺便提醒奥兄一下,你使用“先验概 率”与“后验概率”,也未必是什么规范之作,甚至就是错误的。那位“小张” 的批评是正确的,平常所谓的概率,就是指先验概率(Prior Probability), 无条件的概率(亏得有位叫Woot的网友指正,在此表示感谢),而后验概率 (Posterior Probability),指条件概率。   抽样概率:不管下雨如何变化,在一段时间内如何分布,咱们随机抽一天, 其下雨的概率,这跟指定某一天,来考证当天下雨的概率,不是同一个概念。   基本概率:也就是单纯的概率,不受条件限制的概率,实际上是抽样概率, 只不过是加了单位的,比如说,以天为单位的基本概率,以小时为单位的基本概 率等。   概率压缩:这在原文中解释得够清楚的了,因为概率条件发生了变化,表面 看起来是同一个概念的“概率”在变大,我把它叫概率压缩,不知道别人把这种 现象称为什么(敬请指点),或者懂概率的对概率理解无误,没必要称为什么。   阳性事件准确率:有雨是阳性事件,无雨是阴性事件,针对有雨进行预测, 其预测的准确度(或者说准确概率),就是阳性事件准确率,比如预测10次,中 了8次,就叫80%的准确率,也就是P(阳性事件|预测阳性)=80%。奥兄本人也 采用了“先验后验”的说法,我这里指的是“先验”,那么“后验”则是10次下 雨,预测中了8次,二者是不一样的,只管一个高,预测就没有价值了,比如我 全报雨,那么“后验”概率就是100%,所以,一般而言,准确率指的应该是总体 的预测准确率。   随机概率:我行文中的明确地是指事件本身的发生,呈随机规律(即没有规 律)。如果是随机概率,则没有预报价值,没有规律,那你怎么猜得中?最佳应 对措施,就只有使用基本概率,比如说,每个小时,都当作10%的可能性有雨。   咱们检验奥兄的预报有雨果真下雨的计算:   P(雨)=0.1,那么P(晴)=1-0.1=0.9,这是小时降雨概率   奥兄把0.8弄成P(报雨|雨),也就是把预报准确率理解成为有雨时报雨的 概率,那么,P(报晴|雨)=1-0.8=0.2   按全概率公式,P(报雨)=P(报雨|雨)*P(雨)+P(报雨|晴)*P(晴)   奥兄把P(报晴|雨)直接安在P(报雨|晴)上面了,所以得了0.26的P (报雨)概率。或许奥兄查过原文,有额外信息交待   P(报雨|晴)=P(报晴|雨)?   那也巧得过分了点。如果有那样的额外信息,或者是你要做此假定,实在是 需要在讨论中交待。知道我为什么读得头大了么?   咱们再继续按Bayes公式算:   P(雨|报雨)=P(报雨|雨)*P(雨)/P(报雨)=0.8*0.1/0.26=31%   你这30%难道不有凑数之嫌?我的假定是总体预报接近真实概率(即晴雨 比),则一开始就交待了。按照奥兄的计算,那么搞天气预报的人,要报基础概 率2.6倍的雨,也不知是否真是如此。奥兄把预报准确率同时理解为有雨报雨率, 晴天报晴率,咱们看看如此状态下的预报准确率罢:   P(晴|报晴)=P(报晴|晴)*P(晴)/P(报晴)=0.8*0.9/0.74=97%   报晴肯定晴,报雨靠不住。我原文中的批评,是基于认定准确率是奥兄所谓 的“先验概率”,即先报后验的概率而发的。这里预报是要按小时来算的。   天气预报一般是按天来做的,那么:   P(雨天)=0.4,P(晴天)=0.6;如果按奥卡姆剃刀的理解:   P(报雨|雨天)=P(报晴|晴天)=0.8,   P(报晴|雨天)=P(报雨|晴天)=0.2   P(报雨)=P(报雨|雨天)*P(雨天)+P(报雨|晴天)*P(晴天)= 0.44   P(报晴)=0.56   P(雨天|报雨)=0.8*0.4/0.44=0.73;P(晴天|报晴)=0.8*0.6/0.56 =0.86   报晴报雨,准确率差距就不那么大,雨天每小时有雨机率25%,随机一小时 在当天有报雨时的有雨概率P(雨|报雨天)=0.73*0.25=18%。   这种教科书式的计算是没有意义的,因为下雨与否不是随机事件,这些纯概 率计算得到的概率是靠不住的,天气有连续性,前一个小时的天气对后一个小时 有极大的预报价值,而气象学家做天气预报,肯定用的不是简单的概率计算。   上述概率讨论对此前新语丝上讨论地震,尤其是大震来说,极有意义。如果 我们把预报准确率定为P(报|震),我们作如下假定:   P(震)=0.5%,P(不震)=99.5%,如果我们象中国地震预测专业户那么 预报,每年365天,他们报50天震(即他们在期望不到两个地震时,却要报50个 出来):   P(报)=14%,P(不报)=86%,报了要震的机率是3%,即   P(震|报)=3%,那么   P(不震|报)=1-3%=97%   P(报|不震)=P(不震|报)*P(报)/P(不震)=97%*14%*99.5%= 13.65%   P(不报|不震)=1-13.65%=86.35%   P(报|震)=P(震|报)*P(报)/P(震)=3%*14%/0.5%=84%   P(预测准|事件)=P(不报|不震 或者 报|震)=P(不报|不震)*P (不震)+P(报|震)*P(震)=86.35%*99.5%+84%*0.5%=86.34%   奥卡姆剃刀对预报准确度创造性地解释,倒是指明了翁文波那位地震预报院 士如何把预报准确率做到了80%以上的,概率论功不可没呀。可惜,那种准确率 毫无价值,以他们86%的准确率,大家成天搬家,把腿都磨细。上述总体预测准 确率也是P(事件|预测),即“先验”性的准确率:   P(不震|不报)=P(不报|不震)*P(不震)/P(不报)= 86.35%*99.5%/86%=99.9%   P(事件发生|预测)=P(震|报 或者 不震|不报)=3%*14%+99.9%*86% =86.33%(差异是取整造成的)   大家记得我在最初讨论概率一文中说,“对预报而言,总体准确率要高于预 报事件阳性或者阴性的最大基础概率才有意义。”这里以实际例子说明了为什么 我会那么说,因为这里预报的准确率比P(不震)小得多,尽管这里预报事件后 事件发生的机率远比基础机率高,但整体效益为负,因为狼来得太多。   我们还可以进一步放松条件,比如我们假设,翁公波院士与中国预测集团公 司的各位代表只会猜,猜中的机率是0.5%,但他们仍要报50个震出来:   P(震|报)=0.5%,P(不震|报)=99.5%   P(报|不震)=14%,P(不报|不震)=86%   P(报|震)=14%,P(测准)=99.5%*86%+0.5%*14%=85.64%   准确率上有多大差异?所谓数字游戏人人会玩,各人动机不同也。咱们再次 回到奥卡姆剃刀的假定上,如果以小时为单位进行预报,他直接用了80%的准确 度作为分析基础,可惜那样的准确度没有价值,因为稍有概率知识的人,做一个 随时晴的预报,准确率高达90%。从这一角度来说,原文中的80%准确度,多半不 指以小时为基础的预报准确度。   再次感谢Woot网友当我的概率论老师,帮着出了两套家庭作业。 (XYS20080730) ◇◇新语丝(www.xys.org)(xys2.dxiong.com)(www.xysforum.org)(xys-reader.org)◇◇