◇◇新语丝(www.xys.org)(xys.dxiong.com)(xys.3322.org)(xys.xlogit.com)◇◇

　　关于量子提出的error bar 问题

　　作者：xj

　　量子关于老魏文章中Error-bar 的疑问

　　=====

　　我在那篇文章里先是假定error bar的含义是指观测误差，即当你看到了平
均体积为X，而其真实值是X周围某点。error bar表示X周围点的可能范围，即真
实值的范围。对error bar的含义作此理解主要是因为大家都说过体积难以精确
测量。在这个意义上讲，error bar当然不能涵盖负值。

　　我在文中并未排除用error bar表示离散度的可能性。但在这种情况下我的
问题已经不是负体积问题了。
　　这离散度是试验本身的一个重要结果。但是在只有10只样品且不断处死的情
况下，这离散度已不具备可重复的科学价值。

　　=====

　　在用图表描述数据分布和结果的时候，常见的有：
　　１）均数＋/-标准差: MEAN+/-SD
　　２）均数＋/-标准误: MEAN+/-SE，（ＳＥ＝ＳD／SQRT(N))
　　３）均数＋９５％可信区间: MEAN+/-1.96*SE

　　我不知道老魏本人在文章里面用的是那一种，但我认为不是前面有人提到的
１。因为如果是均数加一个标准差的话，毕竟这种类型的图要表达的是现有样本
的分布，是确实存在的值，所以不应有负值，图中的标棒也不会到０以下。

　　有网友提到如果ＳＤ>Mean, 那么在接近零又非常偏的数据下就会有负值，
即Mean-SD<0。其实ＳＤ，ＳＥ本身是和均数相对独立，他们都可以大于均数。
但是在实际操作中，既然第１种方法是表达实际数据的分布，那么图中的ＳＤ标
棒就应该在最小值处截断。图中的标棒应该不对称。常用软件里的箱式图ＢＯＸ
ＰＰLOT都是这么处理的。当然有人非要弄成对称的也没有办法。

　　事实上，一般人提到errorbar plot (误差图)，标棒就是标准误或标准误的
倍数。这时作图大家常用对称的标棒。

　　因此如用第2和３种方法，其标棒可能会跑到０以下，尤其在肿瘤体积很小
的时候标棒是可以超过观察到的样本范围的。当然1.96*SE也是个有理论意义值。

　　虽然误差棒图常用ＳＥ或９５％ＣＩ，我个人意见是不主张用第１和２种方
法。很明显，第１种方法只是描述了样本数据的分布，不能回答推断性的问题。
虽然第２种方法表述了均数本身的分布（从样本已经进入理论分布的领域），但
是在进行两组比较中，这种描述不能体现两组是否有差别。

　　而第３种方法则即能表达出均数的可能分布，又隐含着推断的结果。即如果
两个均数的可信区间不重合的话，那么这两个均数就肯定有统计显著性差异。

　　但是反之不亦然。如果两个可信区间略有重合，但其差别还是有可能大于０。

　　常用的软件比如ＳＡＳ等做errorbar的时候就是用的95%CI。

　　另外，量子提到：
　　＝＝＝＝＝＝＝＝＝＝＝
　　另外，在只有10只样品的情况下，最好不要使用诸如90%有效果之类的描述。
就直接说看到实验组 9只肿瘤小于500mm^3。这是一个统计上较为 tricky的问题。
事实上，在只有10只的情况下，即便你的实验里你看到10只都有效，依然有至少
20%的可能性真实疗效小于90%。
　　＝＝＝＝＝＝＝＝＝＝＝

　　这个问题提得很好，但是这里只是考虑了单样本得问题。现在老魏（基本包
括其他大部分研究）做得都是两样本（及以上）间的比较。因此如果在Ａ样本内
８０％有效，但Ｂ样本内５０％有效，只要统计的效率足够大，哪怕一组只有１
０个样本，研究者还是有可能下Ａ>B的结论。

　　这里其实就是两样本比较的样本量大小和统计效率的问题。我这里附个图，
假设两样本均数比较，如果差别为１个标准差就表示有意义，第一类误差为常用
的0.05.

　　http://www.xlogit.com/xysupload/9TWOMEANTEST.jpg

　　纵坐标是总样本数（两组样本和），横坐标是统计效率。这里统计效率指如
果根据统计检验接受两样本有差别（即样本数据在表面上有差别），并且实际上
（真值）有差别的概率。

　　这里可以看出，如果要达到常用的８５％以上的统计效率，总样本在４０以
上（每组样本至少２０）。

(XYS20060405)

◇◇新语丝(www.xys.org)(xys.dxiong.com)(xys.3322.org)(xys.xlogit.com)◇◇