◇◇新语丝(www.xys.org)(xys.dxiong.com)(xys.3322.org)(xys.xlogit.com)◇◇   关于量子提出的error bar 问题   作者:xj   量子关于老魏文章中Error-bar 的疑问   =====   我在那篇文章里先是假定error bar的含义是指观测误差,即当你看到了平 均体积为X,而其真实值是X周围某点。error bar表示X周围点的可能范围,即真 实值的范围。对error bar的含义作此理解主要是因为大家都说过体积难以精确 测量。在这个意义上讲,error bar当然不能涵盖负值。   我在文中并未排除用error bar表示离散度的可能性。但在这种情况下我的 问题已经不是负体积问题了。   这离散度是试验本身的一个重要结果。但是在只有10只样品且不断处死的情 况下,这离散度已不具备可重复的科学价值。   =====   在用图表描述数据分布和结果的时候,常见的有:   1)均数+/-标准差: MEAN+/-SD   2)均数+/-标准误: MEAN+/-SE,(SE=SD/SQRT(N))   3)均数+95%可信区间: MEAN+/-1.96*SE   我不知道老魏本人在文章里面用的是那一种,但我认为不是前面有人提到的 1。因为如果是均数加一个标准差的话,毕竟这种类型的图要表达的是现有样本 的分布,是确实存在的值,所以不应有负值,图中的标棒也不会到0以下。   有网友提到如果SD>Mean, 那么在接近零又非常偏的数据下就会有负值, 即Mean-SD<0。其实SD,SE本身是和均数相对独立,他们都可以大于均数。 但是在实际操作中,既然第1种方法是表达实际数据的分布,那么图中的SD标 棒就应该在最小值处截断。图中的标棒应该不对称。常用软件里的箱式图BOX PPLOT都是这么处理的。当然有人非要弄成对称的也没有办法。   事实上,一般人提到errorbar plot (误差图),标棒就是标准误或标准误的 倍数。这时作图大家常用对称的标棒。   因此如用第2和3种方法,其标棒可能会跑到0以下,尤其在肿瘤体积很小 的时候标棒是可以超过观察到的样本范围的。当然1.96*SE也是个有理论意义值。   虽然误差棒图常用SE或95%CI,我个人意见是不主张用第1和2种方 法。很明显,第1种方法只是描述了样本数据的分布,不能回答推断性的问题。 虽然第2种方法表述了均数本身的分布(从样本已经进入理论分布的领域),但 是在进行两组比较中,这种描述不能体现两组是否有差别。   而第3种方法则即能表达出均数的可能分布,又隐含着推断的结果。即如果 两个均数的可信区间不重合的话,那么这两个均数就肯定有统计显著性差异。   但是反之不亦然。如果两个可信区间略有重合,但其差别还是有可能大于0。   常用的软件比如SAS等做errorbar的时候就是用的95%CI。   另外,量子提到:   ===========   另外,在只有10只样品的情况下,最好不要使用诸如90%有效果之类的描述。 就直接说看到实验组 9只肿瘤小于500mm^3。这是一个统计上较为 tricky的问题。 事实上,在只有10只的情况下,即便你的实验里你看到10只都有效,依然有至少 20%的可能性真实疗效小于90%。   ===========   这个问题提得很好,但是这里只是考虑了单样本得问题。现在老魏(基本包 括其他大部分研究)做得都是两样本(及以上)间的比较。因此如果在A样本内 80%有效,但B样本内50%有效,只要统计的效率足够大,哪怕一组只有1 0个样本,研究者还是有可能下A>B的结论。   这里其实就是两样本比较的样本量大小和统计效率的问题。我这里附个图, 假设两样本均数比较,如果差别为1个标准差就表示有意义,第一类误差为常用 的0.05.   http://www.xlogit.com/xysupload/9TWOMEANTEST.jpg   纵坐标是总样本数(两组样本和),横坐标是统计效率。这里统计效率指如 果根据统计检验接受两样本有差别(即样本数据在表面上有差别),并且实际上 (真值)有差别的概率。   这里可以看出,如果要达到常用的85%以上的统计效率,总样本在40以 上(每组样本至少20)。 (XYS20060405) ◇◇新语丝(www.xys.org)(xys.dxiong.com)(xys.3322.org)(xys.xlogit.com)◇◇