单纯0和1的比例不说明问题
所有跟贴·加跟贴·新语丝读书论坛
送交者: Yush 于 2009-06-24, 10:04:54:
回答: 12% 1, 88% 0 由 qtl 于 2009-06-24, 09:29:53:
主要看“串”的冗余程度。不知道你那是什么数据。据说基因序列差异极小,就连人和黑猩猩也仅差1%。如果你的数据中的“2百万个体”相互之间差异很小,压缩10倍以上没问题。
你可以找现成的压缩软件把原始数据文件压缩试验一下。
所有跟贴:
- 倒也是主意 - qtl (70 bytes) 2009-06-24, 10:28:41 (336759)
- 能压缩至11% (无内容) - qtl (0 bytes) 2009-06-24, 10:23:17 (336755)
加跟贴