Intermediate R/Bioconductor for High-Throughput Sequence Analysis introduces users with some R experience to common Bioconductor work flows for sequence analysis. The course involves a combination of presentations and hands-on exercises. Our starting point is BAM files created by aligning short reads to a reference genome. Topics include exploratory analysis (GenomicRanges, Rsamtools); assessing differential expression of known genes (DESeq); detection, calling, and manipulation of variants (VariantTools, VariantAnnotation). We learn how to integrate results with curated gene and genomic annotations (GenomicFeatures), and to visualize results (GViz, ggbio).……【阅读全文】
Tag Archives: 分析
[转]科学家分析现有全RNA测序工具利弊
科学家分析现有全RNA测序工具利弊
日前,两项刊登在《自然-方法学》(Nature Methods)上的研究对比了用于分析从单个细胞所有 RNA 获得的测序数据的不同计算工具。……【阅读全文】
[转]ENCODE30篇论文全摘要 聚焦人基因组功能研究
[荐]第二代测序技术数据分析教程与视频
在线教程(Fall 2012 – Analyzing High Throughput Sequencing Data):http://www.personal.psu.edu/iua1/pages/fall-2012-bmmb-597D.html
在线视频(新一代测序技术数据分析[英语]):http://www.youku.com/playlist_show/id_17418799_ascending_1_mode_pic_page_1.html……【阅读全文】
关于EMBOSS和Galaxy的生物信息学实验课程设计
本人设计的针对本科生的生物信息学实验课程设计,包括涉及EMBOSS和Galaxy的三个题目:
- 基于 EMBOSS 平台对 *** 基因进行序列分析
- 基于 Galaxy 平台分析 *** 物种基因在基因组中的分布
- 基于 Galaxy 平台分析 *** 物种 SNP 在不同特征区域中的分布
对于每一个题目,我都记录了详细的操作步骤,对于想学习EMBOSS和Galaxy(主要是后者)的朋友可能会有所帮助。
Continue reading
[PAPER]RNA-seq analysis protocol
Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks.
Nature Protocols 7, 562–578 (2012) doi:10.1038/nprot.2012.016 Published online 01 March 2012……【阅读全文】
山人何处君不见?东风一花倚阑干! ——《全唐诗》、《全宋词》统计分析报告
山人何处君不见?东风一花倚阑干!
——《全唐诗》、《全宋词》统计分析报告
一、源起
前两天看到了邱怡轩写的统计词话(一)。受其启发,决定利用自己的编程及统计分析能力,对《全唐诗》和《全宋词》进行一个较为全面的统计分析与比较。于是便有了你现在看到的这篇文章。
此处使用到的原始数据、程序脚本及结果图表等均可以在文末找到下载链接。
二、数据
《全唐诗》及《全宋词》的原始数据均来自于网络。
通过基本的编码转换以及“简单”的过滤筛选之后,就得到了用于后续统计分析的数据。
三、工具
系统平台:Linux(Ubuntu 10.10,AMD64)。
Shell命令行:转换编码(iconv)与换行符(fromdos)。
Perl(v5.10.1):用来过滤、筛选原始数据,得到可以用于后续分析的格式化数据。
R(v2.12.2):统计分析及图表绘制。
其他:Vim(v7.2.330),TimeForScience。
四、结果
1.基本信息
补充:只考虑诗或词的主体内容的话,《全唐诗》共使用了7513种(个)汉字,而《全宋词》则使用了5750种(个)汉字。
此处的统计数据仅为约数,与其他的数据有一定的出入。主要原因在于原始数据的质量以及数据处理过程中的过滤筛选等。
相关的参考数据:
百度百科:《全唐诗》共收录唐代诗人2529人,诗作42863首。
玄烨为《全唐诗》所作的序中的说法:诗48900余首,2200余人。
日本学者平冈武夫的统计结果:《全唐诗》共收诗49403首,句1555条,作者2873人。
维基百科:《全宋词》收录宋代词人1330家,词作21116首。
Continue reading