12月 24

[转载]2005年Science公布的125个最具挑战性的科学问题

在庆祝SCIENCE创刊125周年之际,该刊杂志社公布了125个最具挑战性的科学问题,发表在2005年7月1日出版的专辑上。在今后1/4个世纪的时间里,人们将致力于研究解决这些问题。这125个问题如下(前25个被认为是最重要的问题):……【阅读全文】

10月 13

人类基因组中的基因密度、特征长度和SNP密度

一、源起

本周,在为本科生设计生物信息学实验的时候,突发奇想,想要利用Galaxy工具计算一下人类基因组的常识性信息,如:每条染色体上的基因密度,外显子、内含子等特征(feature)的平均长度,SNP在UTR、编码区、内含子等不同特征区域的密度。

二、工具

系统平台:Linux(Ubuntu 12.04,AMD64)。
UCSC Table:下载基因组数据至本地。
Galaxy:用于在线处理基因组数据。
BEDTools(v2.16.2):用于本地处理基因组数据
R(v2.15.1):绘制图表。
其他:Vim(v7.3.429)。

三、数据库

human genome:hg19
dbSNP:135

四、结果

1.基因在每条染色体上的数目与密度。

  • 数据表格
chromosomelength.bplength.100kbgeneNumbergeneDensity.numberPer100Mb
chr12492506212492.5062141771675.82330718
chr22431993732431.9937325631053.86784858
chr31980224301980.224322511136.73991376
chr41911542761911.542761592832.835149343
chr51809152601809.15261739961.223503203
chr61711150671711.1506720711210.29669468
chr71591386631591.3866319401219.06264853
chrX1552705601552.705620831341.5292635
chr81463640221463.640221437981.79865541
chr91412134311412.1343115731113.91670669
chr101355347471355.3474717491290.4439922
chr111350065161350.0651624851840.65189861
chr121338518951338.5189521021570.39241021
chr131151698781151.69878711617.348921738
chr141073495401073.495413341242.66950748
chr151025313921025.3139213571323.49710028
chr1690354753903.5475316001770.79782399
chr1781195210811.952123312870.85900757
chr1878077248780.77248599767.188925511
chr2063025520630.255211671851.63089491
chrY59373566593.73566347584.435167664
chr1959128983591.2898327164593.34807095
chr2251304566513.045669241801.00929028
chr2148129895481.298955341109.49753786

 

  • 条形图展示

基因在每条染色体上的数目与密度
Continue reading

10月 13

关于EMBOSS和Galaxy的生物信息学实验课程设计

本人设计的针对本科生的生物信息学实验课程设计,包括涉及EMBOSS和Galaxy的三个题目:

  • 基于 EMBOSS 平台对 *** 基因进行序列分析
  • 基于 Galaxy 平台分析 *** 物种基因在基因组中的分布
  • 基于 Galaxy 平台分析 *** 物种 SNP 在不同特征区域中的分布

对于每一个题目,我都记录了详细的操作步骤,对于想学习EMBOSS和Galaxy(主要是后者)的朋友可能会有所帮助。
Continue reading

4月 25

基因组工具套件——EMBOSS

EMBOSS 是”The European Molecular Biology Open Software Suite”的缩写,是一个开放源代码的序列分析软件包,它是一组为分子生物学家所设计的公开且免费软件。该软件能够自动识别处理以不同格式存储的数据, 甚至可以通过互联网提取数据,此外同软件包一同提供的还包括大量的程序库,软件包整合了 100多个的序列分析程序,可以满足一般实验室的各种各样的序列分析要求。并且,因为该软件包同时提供了一个扩展库,它也是允许其他科学家依据自由软件精神编制、发布软件的一个平台。EMBOSS 同时将现在可以得到的一系列序列分析工具整合成一个无缝的整体。EMBOSS遵照GPL协议,打破了向商业软件包发展的传统模式。……【阅读全文】

3月 26

基因组的坐标系统:0-based与1-based

在现实生活中,我们经常会遇到从0开始计数还是从1开始计数的问题。此处先从现实生活中的实例说起,过渡到电脑编程,然后再详细解释基因组的坐标问题,最后列出一些有用的网址,感兴趣的可以继续阅读、加深理解。

  • first floor的问题

In British English the floor of a building at street level is the ground floor and the floor above that is the first floor.
在英式英语中, 楼房地面与街道相平的楼层叫ground floor, ground floor上面的一层叫first floor.

In US English the street-level floor is the first floor and the one above is the second floor.
在美式英语中, 与街道相平的楼层叫first floor, 其上面的一层叫second floor.
注:以上解释来源于《牛津英汉双解美化版》。
Continue reading