生物信息学培训资料

注:说是“生物信息学培训”,其实就是我在实验室内部的Journal Club上做的入门级别的生物信息学介绍。

迄今为止,主要有两个内容:一部分是介绍UCSC上的Galaxy在线生物信息学工具;一部分是介绍在第二代测序中常见的数据格式以及与之相关的软件工具。对应的提纲如下所示(点击标题链接可以直接下载PDF文档):

  1. 2010年10月份,Galaxy(A Web-Based Genome Analysis Tool for Experimentalists) & Pearls(Extract From Past, Prepare For Future)
    1. Galaxy
      • 相关背景介绍
      • Galaxy简介
      • 实例演示
      • 参考资料
    2. Pearls
      • “输入-加工-输出”三段论
      • 0-based与1-based
      • 基因组版本转换LiftOver
      • 基因组数据处理套件EMBOSS
      • FASTX-Toolkit
      • Excel与TSV的转换
      • 文本编辑器
      • Unix与Dos的换行符转换
      • 用于文本处理的shell指令
  2. 2011年11月份,Data File Formats and Relevant Tools in Next-generation Sequencing
    1. PART I: Knowledge for better understand
      • IUB/IUPAC code
      • Coordinate system
    2. PART II: Data file formats in NGS
      • FASTA, FASTQ
      • BED
      • GFF/GTF
      • VCF/BCF
      • SAM/BAM
    3. PART III: Relevant tools in NGS
      • FASTX-Toolkit, SolexaQA, BioPerl
      • BEDTools
      • VCFtools, BCFtools
      • SAMtools, BAMtools

PS:两个PDF文档都是使用LaTeX和Beamer制作而成,如果需要TEX源码文档,请发邮件至:yixfblog@gmail.com。

  1. 学习下,谢谢。总是感到生物信息学内容很多,不知道如何下手,特别是学生物出身的我。linux大概知道10条命令,perl等还没有碰过,买了书看了有两章。从博客上获悉你也是生物出身的,能否传授下经验,如核一步一步地学习生物信息学?
    我正在测两个真菌的基因组(先期转录组已经测过),但还算不上精细图,50M大小的基因(借鉴的是同属的数据,我不知道我的这两种真菌的基因组到底有多大),我用solexa测了8G的数据量,还不清楚能拼成个什么样。请问您拿这样的数据能进行基因组之间的比较吗。因为不是精细图,是不是连基本的基因组的信息(比如用您上面提到的两个工具进行分析)分析也不会被接收呢。

    谢谢
    山东烟台