刚刚得空研读了一下各位的讨论,这最大熵原理对物理人士大概是常识,但对俺是新鲜事物,虽然俺时不时也把最大熵挂在口上。
依据熵的定义和相关定理(参见wikipedia), 给定均值和标准差,如果不知道该数据的具体的分布,那么正态分布就是一个符合最大熵原理的分布。
我的理解,如果给定一大堆数据,比如网友的大致年龄,性别,和平时锻炼情况,但不知其他(比如最重要的基因差别,现有疾病等因素),但我们知道整个中国人群的寿命的均值和方差,那么用正态分布来拟合这个网友数据最好,因为这个分布最大限度地利用了已有数据的信息,即拟合数据最有可能最好。
那么如果用这样的正态分布模型来做预测网友的数据,是不是应该得出该方法预测的误差会最小的结论?
当然我知道prediction error 比这个复杂。在这个例子里,其实是intropolation, 不是extropolation. 我们求的是yhat 和se of yhat, 而不是ypred.
昏昏的标准在这里就准确一点,预测精度应该用置信区间来衡量。一个对数据拟合得非常好的模型对未来数据不一定有最小的预测方差。
从某种程度讲,预测误差和最大熵模型不是一码事。