12月 07

[荐]Intermediate R/Bioconductor for High-Throughput Sequence Analysis

Intermediate R/Bioconductor for High-Throughput Sequence Analysis introduces users with some R experience to common Bioconductor work flows for sequence analysis. The course involves a combination of presentations and hands-on exercises. Our starting point is BAM files created by aligning short reads to a reference genome. Topics include exploratory analysis (GenomicRanges, Rsamtools); assessing differential expression of known genes (DESeq); detection, calling, and manipulation of variants (VariantTools, VariantAnnotation). We learn how to integrate results with curated gene and genomic annotations (GenomicFeatures), and to visualize results (GViz, ggbio).……【阅读全文】

11月 19

[荐]第二代测序技术数据分析教程与视频

在线教程(Fall 2012 – Analyzing High Throughput Sequencing Data):http://www.personal.psu.edu/iua1/pages/fall-2012-bmmb-597D.html
在线视频(新一代测序技术数据分析[英语]):http://www.youku.com/playlist_show/id_17418799_ascending_1_mode_pic_page_1.html……【阅读全文】

10月 13

关于EMBOSS和Galaxy的生物信息学实验课程设计

本人设计的针对本科生的生物信息学实验课程设计,包括涉及EMBOSS和Galaxy的三个题目:

  • 基于 EMBOSS 平台对 *** 基因进行序列分析
  • 基于 Galaxy 平台分析 *** 物种基因在基因组中的分布
  • 基于 Galaxy 平台分析 *** 物种 SNP 在不同特征区域中的分布

对于每一个题目,我都记录了详细的操作步骤,对于想学习EMBOSS和Galaxy(主要是后者)的朋友可能会有所帮助。
Continue reading

3月 21

山人何处君不见?东风一花倚阑干! ——《全唐诗》、《全宋词》统计分析报告

山人何处君不见?东风一花倚阑干!

——《全唐诗》、《全宋词》统计分析报告

一、源起

前两天看到了邱怡轩写的统计词话(一)。受其启发,决定利用自己的编程及统计分析能力,对《全唐诗》和《全宋词》进行一个较为全面的统计分析与比较。于是便有了你现在看到的这篇文章。
此处使用到的原始数据、程序脚本及结果图表等均可以在文末找到下载链接。

二、数据

《全唐诗》及《全宋词》的原始数据均来自于网络。
通过基本的编码转换以及“简单”的过滤筛选之后,就得到了用于后续统计分析的数据。

三、工具

系统平台:Linux(Ubuntu 10.10,AMD64)。
Shell命令行:转换编码(iconv)与换行符(fromdos)。
Perl(v5.10.1):用来过滤、筛选原始数据,得到可以用于后续分析的格式化数据。
R(v2.12.2):统计分析及图表绘制。
其他:Vim(v7.2.330),TimeForScience

四、结果

1.基本信息

general_info
补充:只考虑诗或词的主体内容的话,《全唐诗》共使用了7513种(个)汉字,而《全宋词》则使用了5750种(个)汉字。
此处的统计数据仅为约数,与其他的数据有一定的出入。主要原因在于原始数据的质量以及数据处理过程中的过滤筛选等。
相关的参考数据:
百度百科:《全唐诗》共收录唐代诗人2529人,诗作42863首。
玄烨为《全唐诗》所作的序中的说法:诗48900余首,2200余人。
日本学者平冈武夫的统计结果:《全唐诗》共收诗49403首,句1555条,作者2873人。
维基百科:《全宋词》收录宋代词人1330家,词作21116首。
Continue reading