请短江，昏昏和guru等科普一下关于楼下寿命估计和最大熵

请短江，昏昏和guru等科普一下关于楼下寿命估计和最大熵

所有跟贴·加跟贴·新语丝读书论坛

送交者: xj 于 2008-07-11, 12:47:25:

刚刚得空研读了一下各位的讨论，这最大熵原理对物理人士大概是常识，但对俺是新鲜事物，虽然俺时不时也把最大熵挂在口上。

依据熵的定义和相关定理（参见wikipedia), 给定均值和标准差，如果不知道该数据的具体的分布，那么正态分布就是一个符合最大熵原理的分布。

我的理解，如果给定一大堆数据，比如网友的大致年龄，性别，和平时锻炼情况，但不知其他（比如最重要的基因差别，现有疾病等因素），但我们知道整个中国人群的寿命的均值和方差，那么用正态分布来拟合这个网友数据最好，因为这个分布最大限度地利用了已有数据的信息，即拟合数据最有可能最好。

那么如果用这样的正态分布模型来做预测网友的数据，是不是应该得出该方法预测的误差会最小的结论？

当然我知道prediction error 比这个复杂。在这个例子里，其实是intropolation, 不是extropolation. 我们求的是yhat 和se of yhat, 而不是ypred.

昏昏的标准在这里就准确一点，预测精度应该用置信区间来衡量。一个对数据拟合得非常好的模型对未来数据不一定有最小的预测方差。

从某种程度讲，预测误差和最大熵模型不是一码事。

还有短江一直坚持的正态分布数据就表示该数据最不可预测 - xj (408 bytes) 2008-07-11, 12:59:28 (242158)
MEM保证在给定假设前提下做出的推测熵最大，就是说这个推测最有包容性 - conner (133 bytes) 2008-07-11, 12:58:54 (242157)
- 那么什么是包容性？最有包容性=置信区间最大？ (无内容) - xj (0 bytes) 2008-07-11, 13:06:02 (242162)
  - 我的理解就是以一个推测应万种可能（推测时不可知的额外的信息） (无内容) - conner (0 bytes) 2008-07-11, 13:07:40 (242163)
连续数据的预测用置信区间最好 - HunHunSheng (66 bytes) 2008-07-11, 12:58:52 (242156)
- 预测用置信区间，拟合度衡量模型 - xj (28 bytes) 2008-07-11, 13:04:00 (242161)
  - 一派胡言你怎么用置信区间来预测一个人要生孩子的会是男孩还是女孩 - HunHunSheng (73 bytes) 2008-07-11, 13:09:13 (242164)
    - odds ratios [OR] and 95% confidence intervals (无内容) - blackbox (0 bytes) 2008-07-11, 13:18:40 (242169)
      - 你说的对.我错了 (无内容) - HunHunSheng (0 bytes) 2008-07-11, 13:29:33 (242176)
        
        HunHun带头认错赞一下:-) (无内容) - JJZ (0 bytes) 2008-07-11, 14:26:25 (242196)
        
        印象中斑竹从来不直接认错,看来还是昏昏的程序更伟大 :) (无内容) - blackbox (0 bytes) 2008-07-11, 14:19:23 (242193)
        
        你们都被昏昏卖了还数钱呢，他那是哗众取宠， (无内容) - chouqilozi (0 bytes) 2008-07-11, 14:56:31 (242204)
        
        读书论坛愈来愈好玩, 成了打乱仗的地方 (无内容) - JJZ (0 bytes) 2008-07-11, 15:16:19 (242209)
    - 预测的是生男生女的概率 (无内容) - xj (0 bytes) 2008-07-11, 13:14:41 (242166)
      - 生男生女的概率就不是分类数据而是作为连续数据 (无内容) - HunHunSheng (0 bytes) 2008-07-11, 13:17:57 (242168)
        
        生男生女可以预测,白大哥发明的机器一照就知道了.将来地震也一样,等白大哥的发明吧 (无内容) - 粪青 (0 bytes) 2008-07-11, 13:25:20 (242173)
        
        当然这个还叫做分类数据分析 - HunHunSheng (108 bytes) 2008-07-11, 13:25:09 (242172)