3月 09

bedtools:灵活而强大的基因组数据处理套件

  • 简介

bedtools总共有二三十个工具/命令来处理基因组数据。比较典型而且常用的功能举例如下:
格式转换,bam转bed(bamToBed),bed转其他格式(bedToBam,bedToIgv);
对基因组坐标的逻辑运算,包括:交集(intersectBed,windowBed),”邻集“(closestBed),补集(complementBed),并集(mergeBed),差集(subtractBed);
计算覆盖度(coverage)(coverageBed,genomeCoverageBed);
此外,还有一些强大而实用的工具(shuffleBed,groupBy,annotateBed,……)。……【阅读全文】

3月 09

Time For Science: UNIX tools and other lab tools

Time For Science是一套工具包,主要包括两部分内容:(通过Perl实现的)增强型的Unix系统工具,以及常用生物信息学工具的汇总。除此以外,还有一些Unix的配置文件、绘图的R脚本等。

下面简单介绍其中的几个小工具(详细介绍请点击文末的工具介绍链接):

  • trash.pl

类似于rm,但比rm更安全:它会把文件删除至默认的回收站中,而不是直接删除。

  • tree_of_filestructure.sh

显示目录树,完美支持中文!(不过好像只会现实到最底层的目录,而不会显示最低层目录下的文件。)

  • cut.pl

增强型的cut:可以在输出中对列进行重排。
Continue reading

3月 08

实用的SHELL脚本

  • 实际问题

假设有成百上千个GEO数据文件,每个文件中都有好多行的基因表达数据,文件的第一列是NCBI geneid。现在想从这许多GSE中提取出每个geneid的基因表达量,即根据geneid来对原始数据进行分组。如何实现呢?下面是使用shell的一种解决办法。……【阅读全文】