在生物学特别是基因组学的研究工作中,经常会遇到多重假设检验(multiple testing)的问题;此时,得到的原始p值需要进行校正后才能使用,那么哪种校正方法更加适合自己的研究工作呢?p-values, false discovery rates(FDR) 和 q-values有什么不同?它们分别代表什么意义?
对于统计科班的同学来说,这不过是小菜一碟;但对于纯生物出身的同学来说,别说去看公式了,光是听听就觉得头大!不过幸运的是,有牛人(William S Noble)了解我们的苦衷,于是一篇nature biotechnology的文章诞生了——《How does multiple testing correction work?》。
这片文章不长,只有3页,用不了多长时间就可以看完。更加令人高兴的是,全篇没有一个让人头大的公式;了解基本的统计学知识、特别是p值的相关概念之后,阅读这片文章就不会有太大的困难了。
作者以一个生物学例子贯穿全篇,这个例子对于大多数生物专业的同学来说都非常容易理解——在人的21号染色体上寻找CTCF(一个高度保守的锌指DNA结合蛋白)的潜在结合位点。作者先介绍了零假设(null hypothesis),进而引出了p-value的概念。之后,解释了为什么原始p值不能够直接使用,从而过渡到p值校正的话题。在这一部分,作者层层深入,以简洁明了的语言介绍、解释了Bonferroni adjustment、false discovery rate (FDR)、q-value和local FDR的概念、由来、意义等基本但非常重要的知识。最后作者给出了实际应用时的指导建议,并以点睛之笔概括总结了全文中的要点。
如果你的工作涉及p值的校正、FDR、q值等概念,这篇文章绝对胜任引你入门的角色(但绝不仅限于此!)。
文章的详细信息如下:
Noble, William S. 2009. How does multiple testing correction work? Nature biotechnology 27, no. 12 (December): 1135-7. doi:10.1038/nbt1209-1135. http://www.ncbi.nlm.nih.gov/pubmed/20010596.
PS:如果你没有权限下载全文,请点此下载!