2月 13

FASTQ格式

Fastq格式是用来保存第二代测序数据的格式,其中同时包含了测序序列与测序质量,而且序列本身和测序质量都以单个的ASCII字符来表示。Fastq没有标准的后缀名,一般使用“.fq”或者“.fastq”,当然,“.txt”亦可。

Fastq格式一般包含四行:第一行以“@”起始,后跟相应的描述信息(类似于Fasta格式);第二行是序列本身;第三行由“+”起始,后面的描述信息可有可无,若有的话,则与第一行中的完全一样;第四行是第二行测序序列的测序质量,字符数与第二行相等。
Continue reading

1月 12

【文献推荐】生物信息学编程技能的培养

2009年12月的PLoS Computational Biology上发表了一篇名为《培养实用生物信息学编程技能的简明指导》的文章。在此推荐给生物信息学专业的学生。不管你是“菜鸟”还是“高手”,读一读此文,均将获益匪浅。用原文中的一句话来说,就是:Successful adoption of these principals will serve both beginner and experienced bioinformaticians alike in career develop- ment and pursuit of professional and scientific goals.

我根据自己的理解把文中作者的观点整理概括如下:

Continue reading

1月 11

【文献推荐】多重假设检验中的p值校正

在生物学特别是基因组学的研究工作中,经常会遇到多重假设检验(multiple testing)的问题;此时,得到的原始p值需要进行校正后才能使用,那么哪种校正方法更加适合自己的研究工作呢?p-values, false discovery rates(FDR) 和 q-values有什么不同?它们分别代表什么意义?

对于统计科班的同学来说,这不过是小菜一碟;但对于纯生物出身的同学来说,别说去看公式了,光是听听就觉得头大!不过幸运的是,有牛人(William S Noble)了解我们的苦衷,于是一篇nature biotechnology的文章诞生了——《How does multiple testing correction work?》。

Continue reading