在庆祝SCIENCE创刊125周年之际,该刊杂志社公布了125个最具挑战性的科学问题,发表在2005年7月1日出版的专辑上。在今后1/4个世纪的时间里,人们将致力于研究解决这些问题。这125个问题如下(前25个被认为是最重要的问题):……【阅读全文】
Tag Archives: 基因组
[转荐]GPB上关于microRNA研究的专题综述
[转]ENCODE30篇论文全摘要 聚焦人基因组功能研究
人类单个个体SNP、InDel等的密度
参考阅读:人类基因组中的基因密度、特征长度和SNP密度……【阅读全文】
人类基因组中的基因密度、特征长度和SNP密度
一、源起
本周,在为本科生设计生物信息学实验的时候,突发奇想,想要利用Galaxy工具计算一下人类基因组的常识性信息,如:每条染色体上的基因密度,外显子、内含子等特征(feature)的平均长度,SNP在UTR、编码区、内含子等不同特征区域的密度。
二、工具
系统平台:Linux(Ubuntu 12.04,AMD64)。
UCSC Table:下载基因组数据至本地。
Galaxy:用于在线处理基因组数据。
BEDTools(v2.16.2):用于本地处理基因组数据
R(v2.15.1):绘制图表。
其他:Vim(v7.3.429)。
三、数据库
human genome:hg19
dbSNP:135
四、结果
1.基因在每条染色体上的数目与密度。
- 数据表格
chromosome | length.bp | length.100kb | geneNumber | geneDensity.numberPer100Mb |
---|---|---|---|---|
chr1 | 249250621 | 2492.50621 | 4177 | 1675.82330718 |
chr2 | 243199373 | 2431.99373 | 2563 | 1053.86784858 |
chr3 | 198022430 | 1980.2243 | 2251 | 1136.73991376 |
chr4 | 191154276 | 1911.54276 | 1592 | 832.835149343 |
chr5 | 180915260 | 1809.1526 | 1739 | 961.223503203 |
chr6 | 171115067 | 1711.15067 | 2071 | 1210.29669468 |
chr7 | 159138663 | 1591.38663 | 1940 | 1219.06264853 |
chrX | 155270560 | 1552.7056 | 2083 | 1341.5292635 |
chr8 | 146364022 | 1463.64022 | 1437 | 981.79865541 |
chr9 | 141213431 | 1412.13431 | 1573 | 1113.91670669 |
chr10 | 135534747 | 1355.34747 | 1749 | 1290.4439922 |
chr11 | 135006516 | 1350.06516 | 2485 | 1840.65189861 |
chr12 | 133851895 | 1338.51895 | 2102 | 1570.39241021 |
chr13 | 115169878 | 1151.69878 | 711 | 617.348921738 |
chr14 | 107349540 | 1073.4954 | 1334 | 1242.66950748 |
chr15 | 102531392 | 1025.31392 | 1357 | 1323.49710028 |
chr16 | 90354753 | 903.54753 | 1600 | 1770.79782399 |
chr17 | 81195210 | 811.9521 | 2331 | 2870.85900757 |
chr18 | 78077248 | 780.77248 | 599 | 767.188925511 |
chr20 | 63025520 | 630.2552 | 1167 | 1851.63089491 |
chrY | 59373566 | 593.73566 | 347 | 584.435167664 |
chr19 | 59128983 | 591.28983 | 2716 | 4593.34807095 |
chr22 | 51304566 | 513.04566 | 924 | 1801.00929028 |
chr21 | 48129895 | 481.29895 | 534 | 1109.49753786 |
- 条形图展示
Continue reading
关于EMBOSS和Galaxy的生物信息学实验课程设计
本人设计的针对本科生的生物信息学实验课程设计,包括涉及EMBOSS和Galaxy的三个题目:
- 基于 EMBOSS 平台对 *** 基因进行序列分析
- 基于 Galaxy 平台分析 *** 物种基因在基因组中的分布
- 基于 Galaxy 平台分析 *** 物种 SNP 在不同特征区域中的分布
对于每一个题目,我都记录了详细的操作步骤,对于想学习EMBOSS和Galaxy(主要是后者)的朋友可能会有所帮助。
Continue reading
[转]便携基因组测序仪
信息来源:与Siri面对面,最新十款新奇产品!……【阅读全文】
获取基因组的子序列
-
下载基因组的序列,将此问题转换为“从Fasta文件中提取子序列”。【适用于单个或批量】
-
使用UCSC的galaxy【适用于单个或批量】
第一步:整理基因组坐标格式。
把基因组坐标整理为如下格式,保存到一个纯文本文件中。……【阅读全文】
基因组工具套件——EMBOSS
EMBOSS 是”The European Molecular Biology Open Software Suite”的缩写,是一个开放源代码的序列分析软件包,它是一组为分子生物学家所设计的公开且免费软件。该软件能够自动识别处理以不同格式存储的数据, 甚至可以通过互联网提取数据,此外同软件包一同提供的还包括大量的程序库,软件包整合了 100多个的序列分析程序,可以满足一般实验室的各种各样的序列分析要求。并且,因为该软件包同时提供了一个扩展库,它也是允许其他科学家依据自由软件精神编制、发布软件的一个平台。EMBOSS 同时将现在可以得到的一系列序列分析工具整合成一个无缝的整体。EMBOSS遵照GPL协议,打破了向商业软件包发展的传统模式。……【阅读全文】
基因组的坐标系统:0-based与1-based
在现实生活中,我们经常会遇到从0开始计数还是从1开始计数的问题。此处先从现实生活中的实例说起,过渡到电脑编程,然后再详细解释基因组的坐标问题,最后列出一些有用的网址,感兴趣的可以继续阅读、加深理解。
-
first floor的问题
In British English the floor of a building at street level is the ground floor and the floor above that is the first floor.
在英式英语中, 楼房地面与街道相平的楼层叫ground floor, ground floor上面的一层叫first floor.
In US English the street-level floor is the first floor and the one above is the second floor.
在美式英语中, 与街道相平的楼层叫first floor, 其上面的一层叫second floor.
注:以上解释来源于《牛津英汉双解美化版》。
Continue reading