11月 02

[转载]关于统计-生物学家需要知道的五件事

全文提纲

  1. Non parametric statistics.
  2. R (or I guess S).
  3. The problem of multiple testing, and how to handle it, either with the Expected value, or FDR, and the backstop of many of piece of bioinformatics – large scale permutation.
  4. The relationship between Pvalue, Effect size, and Sample size.
  5. Linear models and PCA.

 ……【阅读全文】

10月 13

人类基因组中的基因密度、特征长度和SNP密度

一、源起

本周,在为本科生设计生物信息学实验的时候,突发奇想,想要利用Galaxy工具计算一下人类基因组的常识性信息,如:每条染色体上的基因密度,外显子、内含子等特征(feature)的平均长度,SNP在UTR、编码区、内含子等不同特征区域的密度。

二、工具

系统平台:Linux(Ubuntu 12.04,AMD64)。
UCSC Table:下载基因组数据至本地。
Galaxy:用于在线处理基因组数据。
BEDTools(v2.16.2):用于本地处理基因组数据
R(v2.15.1):绘制图表。
其他:Vim(v7.3.429)。

三、数据库

human genome:hg19
dbSNP:135

四、结果

1.基因在每条染色体上的数目与密度。

  • 数据表格
chromosomelength.bplength.100kbgeneNumbergeneDensity.numberPer100Mb
chr12492506212492.5062141771675.82330718
chr22431993732431.9937325631053.86784858
chr31980224301980.224322511136.73991376
chr41911542761911.542761592832.835149343
chr51809152601809.15261739961.223503203
chr61711150671711.1506720711210.29669468
chr71591386631591.3866319401219.06264853
chrX1552705601552.705620831341.5292635
chr81463640221463.640221437981.79865541
chr91412134311412.1343115731113.91670669
chr101355347471355.3474717491290.4439922
chr111350065161350.0651624851840.65189861
chr121338518951338.5189521021570.39241021
chr131151698781151.69878711617.348921738
chr141073495401073.495413341242.66950748
chr151025313921025.3139213571323.49710028
chr1690354753903.5475316001770.79782399
chr1781195210811.952123312870.85900757
chr1878077248780.77248599767.188925511
chr2063025520630.255211671851.63089491
chrY59373566593.73566347584.435167664
chr1959128983591.2898327164593.34807095
chr2251304566513.045669241801.00929028
chr2148129895481.298955341109.49753786

 

  • 条形图展示

基因在每条染色体上的数目与密度
Continue reading

4月 05

在R中绘制韦恩图的几种方法

  • 使用limma包

1
2
3
4
5
6
7
8
9
10
11
12
13
14
#安装limma包
#source("http://www.bioconductor.org/biocLite.R")
#biocLite("limma")
 
#载入limma包
library(limma)
hsb2 《- read.table("http://www.ats.ucla.edu/stat/R/notes/hsb2.csv", sep=',', header=T)
attach(hsb2)
hw 《- (write=60)
hm 《- (math 《=60)
hr 《- (read=60)
c3 《- cbind(hw, hm, hr)
a 《- vennCounts(c3)
vennDiagram(a, include = "both", names = c("High Writing", "High Math", "High Reading"), cex = 1, counts.col = "red")
  • 使用gplots包

1
2
3
4
5
6
7
8
9
10
11
12
13
#安装gplots包
#install.packages("gplots")
 
#载入gplots包
library(gplots)
oneName 《- function() paste(sample(LETTERS,5,replace=TRUE),collapse="")
geneNames 《- replicate(1000, oneName())
GroupA 《- sample(geneNames, 400, replace=FALSE)
GroupB 《- sample(geneNames, 750, replace=FALSE)
GroupC 《- sample(geneNames, 250, replace=FALSE)
GroupD 《- sample(geneNames, 300, replace=FALSE)
input-list(GroupA,GroupB,GroupC,GroupD)
venn(input)

Continue reading

2月 13

情人节特献之“我心永恒”

  • 极坐标中的心形[R]

预览:
heart1
代码:

1
2
3
4
library(plotrix)
t《-seq(-pi,pi,0.1)
r《-1-cos(t/2)
radial.plot(r,t,rp.type="p",lwd=3,line.col=2)
  • 2D的中国心[R]

预览:
heart2
代码:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
#heart
n=30000
p=sort(runif(n,min=0,max=pi))
p=sin(p)+rnorm(n)
plot(sort(rnorm(n)),-p,col="red",pch="·",axes = F, ylab="",xlab=paste("By 微微    ",Sys.Date()),main="Happy Birthday")
#stars
p《-c()
q《-c()
rr《-c(0.68,rep(0.32,4))
#locator()定的下面坐标,精确但不准确。
m《-c(-1.2511927,-0.7707085,-0.5538095,-0.6129638,-0.8293381)
n《-c(-0.079779159,0.42312375,0.05632304,-0.45719796,-0.8440031)
for (k in c(1:5))
{
r=rr[k]
for (i in 1:5)
{
p[2*i-1]=sin(pi*18/90)/sin(pi*54/90)*r*sin(pi*(i*72+36)/90)
q[2*i-1]=sin(pi*18/90)/sin(pi*54/90)*r*cos(pi*(i*72+36)/90)
p[2*i]=sin(pi*18/90)/sin(pi*54/90)*0.38*r*sin(pi*(i*72+18)/90)
q[2*i]=sin(pi*18/90)/sin(pi*54/90)*0.38*r*cos(pi*(i*72+18)/90)
}
x=c(p[1],p[2],p[5],p[6],p[9],p[10],p[3],p[4],p[7],p[8],p[1])
y=c(q[1],q[2],q[5],q[6],q[9],q[10],q[3],q[4],q[7],q[8],q[1])
x=x+m[k]
y=y+n[k]
polygon(x, y, col="yellow",border = "yellow")
}
  • 3D的中国心[R]

预览:
snapshot01
代码(下载):mychina

  • 浪漫的表白

参看:浪漫的表白与猥琐的相思——几个有趣的R代码
Continue reading