4月 28

第二代测序中的深度(depth)与覆盖度(coverage)

  • 假想实验

对长100bp的目标区域进行捕获测序:采用单端测序,每个read长5bp;总共得到了200个reads;把所有的reads比对到目标区域后,100bp的目标区域中有98bp的位置至少有1个read覆盖到,换言之,剩余的2bp没有1个read覆盖。……【阅读全文】

4月 26

计算单机版Blat的“percent identity“的Perl代码

单机版Blat的匹配结果中没有percent identity(网络版的Blat输出结果中有)。为了筛选输出结果,常常需要计算每个匹配的percent identity;UCSC的Blat—FAQ中虽然给出了相应的解决办法(http://genome.ucsc.edu/FAQ/FAQblat#blat4),但其代码是用C写的,不利于使用Perl的生物信息学工作人员调用。此处给出相应的perl代码,如下所示(非原创,版权归原作者所有):
Continue reading

4月 26

【转载】深度测序技术

通量测序技术是对传统测序一次革命性的改变,一次对几十万到几百万条DNA分子进行序列测定,因此在有些文献中称其为下一代测序技术(next generation sequencing)足见其划时代的改变,同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能,所以又被称为深度测序(deep sequencing)。 高通量测序平台的代表是罗氏公司(Roche)的454测序仪(Roch GS FLX sequencer),Illumina公司的Solexa基因组分析仪(Illumina Genome Analyzer)和ABI的SOLiD测序仪(ABI SOLiD se-quencer)。 2008年4月Helico BioScience公司的Timothy等人在Science上报道了他们开发的真正的单分子测序技术,并利用该技术对一个M13病毒基因组进行重测序。 这项技术之所以被称为真正的单分子测序,是因为它完全跨过了上述3种高通量测序依赖的基于PCR扩增的信号放大过程,真正达到了读取单个荧光分子的能力,向1000美元测定一个人类基因组的目标迈出了一大步。

这些平台共同的特点是极高的测序通量,相对于传统测序的96道毛细管测序,高通量测序一次实验可以读取40万到400万条序列。 读取长度根据平台不同从25碱基到450碱基,不同的测序平台在一次实验中,可以读取1G到14G不等的碱基数,这样庞大的测序能力是传统测序仪所不能比拟的。
Continue reading

4月 25

基因组工具套件——EMBOSS

EMBOSS 是”The European Molecular Biology Open Software Suite”的缩写,是一个开放源代码的序列分析软件包,它是一组为分子生物学家所设计的公开且免费软件。该软件能够自动识别处理以不同格式存储的数据, 甚至可以通过互联网提取数据,此外同软件包一同提供的还包括大量的程序库,软件包整合了 100多个的序列分析程序,可以满足一般实验室的各种各样的序列分析要求。并且,因为该软件包同时提供了一个扩展库,它也是允许其他科学家依据自由软件精神编制、发布软件的一个平台。EMBOSS 同时将现在可以得到的一系列序列分析工具整合成一个无缝的整体。EMBOSS遵照GPL协议,打破了向商业软件包发展的传统模式。……【阅读全文】