-
代码
9336ac2b165fc40c741a8f9d556b2e41000……【阅读全文】
9336ac2b165fc40c741a8f9d556b2e41000……【阅读全文】
Fastq格式中的测序质量有两种:一种是标准的Sanger质量(即:Phred质量值),另一种则是Solexa/Illumina的变体。详细解释与描述请参考文末的扩展阅读。……【阅读全文】
Fastq格式是用来保存第二代测序数据的格式,其中同时包含了测序序列与测序质量,而且序列本身和测序质量都以单个的ASCII字符来表示。Fastq没有标准的后缀名,一般使用“.fq”或者“.fastq”,当然,“.txt”亦可。
Fastq格式一般包含四行:第一行以“@”起始,后跟相应的描述信息(类似于Fasta格式);第二行是序列本身;第三行由“+”起始,后面的描述信息可有可无,若有的话,则与第一行中的完全一样;第四行是第二行测序序列的测序质量,字符数与第二行相等。
Continue reading
2009年12月的PLoS Computational Biology上发表了一篇名为《培养实用生物信息学编程技能的简明指导》的文章。在此推荐给生物信息学专业的学生。不管你是“菜鸟”还是“高手”,读一读此文,均将获益匪浅。用原文中的一句话来说,就是:Successful adoption of these principals will serve both beginner and experienced bioinformaticians alike in career develop- ment and pursuit of professional and scientific goals.
我根据自己的理解把文中作者的观点整理概括如下:
在生物学特别是基因组学的研究工作中,经常会遇到多重假设检验(multiple testing)的问题;此时,得到的原始p值需要进行校正后才能使用,那么哪种校正方法更加适合自己的研究工作呢?p-values, false discovery rates(FDR) 和 q-values有什么不同?它们分别代表什么意义?
对于统计科班的同学来说,这不过是小菜一碟;但对于纯生物出身的同学来说,别说去看公式了,光是听听就觉得头大!不过幸运的是,有牛人(William S Noble)了解我们的苦衷,于是一篇nature biotechnology的文章诞生了——《How does multiple testing correction work?》。
Fasta格式是保存序列最常见的格式之一。
Fasta格式的起始标识符为“>”,后面紧跟相应的描述;下面就是一行一行的序列,严格来讲,每一行最好不要超过80个字符,序列中的回车符不会影响序列的连续性及程序对序列的处理。
示例Fasta格式如下:
Get every new post delivered to your Inbox
Join other followers