[转]ENCODE30篇论文全摘要聚焦人基因组功能研究

作者：ZinFingerNase 来源：生物谷 2012-9-8 15:34:53
30篇论文打包下载 [115网盘]

DNA元件百科全书(Encyclopedia of DNA Elements, ENCODE)项目旨在描述人类基因组中所编码的全部功能性序列元件。它于2003年9月正式启动。来自英国、美国、西班牙、新加坡和日本的32个实验室中442名科学家参与这个项目。9年后的今天，他们在Nature(6篇)、Genome Research(18篇)和Genome Biology(6篇)期刊上发表了30篇论文。

1. 转录因子的足迹分析(http://dx.doi.org/10.1038/nature11212)
对41种不同的细胞和组织类型进行基因组DNase I足迹分析(genomic DNase I footprinting)，研究人员在DNA调节区内鉴定出4500万个转录因子结合事件，从而代表着这些转录因子与840万个不同的短DNA序列元件存在差异性地结合。他们还发现影响等位基因染色质状态的基因变异体集中分布在这些足迹之中，并且这些序列元件优先得到DNA甲基化的保护。他们鉴定出一个固定不变的50个碱基对长的足迹，并且这种足迹精确地确定着上千个人启动子内的转录起始位点。最后，他们描述了一个新的调节因子识别基序集合，其中这些基序在序列和功能上是高度保守的。

2. 人基因组DNA元件集成百科全书(http://dx.doi.org/10.1038/nature11247)
ENCODE项目系统性地描绘出人基因组上的转录区域、转录因子结合、染色质结构和组蛋白修饰。根据这些数据，研究人员将生化功能分配到80%的人基因组，特别是在已得到很好研究的蛋白编码序列之外的区域。

3. 人细胞转录全景图(http://dx.doi.org/10.1038/nature11233)
RNA是基因组编码的遗传信息的直接输出。细胞的大部分调节功能都集中在RNA的合成、加工和运输、修饰和翻译之中。研究人员证实，75%的人基因组能够发生转录，并且观察到几乎所有当前已标注的RNA和上千个之前未标注的RNA的表达范围与水平、定位、加工命运、调节区和修饰。总之，这些观察结果表明人们需要重新定义基因的概念。

4. 人基因组中可访问的染色质全景图(http://dx.doi.org/10.1038/nature11232)
DNase I超敏感位点(DNase I hypersensitive sites, DHSs)是调节性DNA序列的标记物。研究人员通过对125个不同的细胞和组织类型进行全基因组谱分析而鉴定出大约290万个人DHSs，并且首次大范围地绘制出人DHSs图谱。

5. 人基因组调控网络结构(http://dx.doi.org/10.1038/nature11245)
为了确定人转录调节网络的作用原理，研究人员在450多项基因组实验中研究了119个转录相关因子的结合信息。他们发现转录因子的组合性结合是高度环境特异性的：转录因子的不同组合结合在特异性的基因组位置上。他们对所有的转录因子进行组装而产生一个层次结构，并且将它与其他基因组信息整合在一起而形成一个严密而又庞大的调节性网络。

6. 基因启动子的远距离相互作用全景图(http://dx.doi.org/10.1038/nature11279)
在ENCODE项目中，研究人员选择1%的基因组作为项目试点区域，并且利用染色体构象捕获碳拷贝(chromosome conformation capture carbon copy, 简称为5C)技术来综合性地分析了这个区域中转录起始位点和远端序列元件之间的相互作用。他们获得GM12878、K562和HeLa-S3细胞的5C图谱。在每个细胞系，他们发现启动子和远端序列元件之间存在1000多个远距离相互作用。

7. 果蝇和人的转录因子结合位点变异分析(http://dx.doi.org/10.1186/gb-2012-13-9-r49)
研究人员将ENCODE项目产生的转录因子结合图谱、他们之前发布的数据以及其他的人和果蝇等基因系中基因组变异数据来源结合在一起，来研究转录因子结合位点(transcription factor binding sites, TFBSs)的变异性。他们引入一种TFBS变异性的衡量标准和依据不断出现的每个人的转录因子结合数据来证实TFBS突变，尤其是在进化保守性位点上发生的那些突变，能够被有效地缓解从而确保转录因子结合水平保持一致性。

8. 转录因子TCF7L2通过GATA3结合到基因组上(http://dx.doi.org/10.1186/gb-2012-13-9-r52)
TCF7L2转录因子与很多人类疾病相关联，如II型糖尿病和癌症。研究人员利用高通量测序技术ChIP-seq在6个人细胞系中对TCF7L2进行分析。他们鉴定出11.6万个非冗余性TCF7L2结合位点，但是只有1864 个位点在这6个细胞系中是相同的。他们还证实被H3K4me1和H3K27Ac标记的很多基因组区域也被TCF7L2结合。对细胞类型特异性的TCF7L2结合位点进行生物信息学分析揭示富集多种转录因子，包括在HepG2细胞中富集HNF4alpha和FOXA2基序，而在MCF7细胞中富集GATA3基序。转录组测序(RNA-seq)分析提示着TCF7L2通过GATA3结合到基因组上从而抑制转录。

9. 构建定量模型研究染色质特征和基因表达水平之间关系(http://dx.doi.org/10.1186/gb-2012-13-9-r53)
通过构建出一个新的研究染色质特征和基因表达水平之间关系的定量模型，研究人员不仅证实之前在多个细胞系的研究中发现的一般性关系，而且还对它们之间的关系提出一些新的建议。

10. GENCODE假基因资源(http://dx.doi.org/10.1186/gb-2012-13-9-r51)
作为GENCODE标注人基因组的一部分，研究人员基于大规模的人工标注和计算机运算来第一次针对蛋白编码的基因进行全基因组假基因分配。他们将假基因标注和广泛性的ENCODE功能性基因组学信息整合在一起。特别的是，他们确定了每个假基因的表达水平、转录因子与RNA聚合酶II结合以及与之相关联的染色质标记。

11. 对人启动子的转录因子结合位点进行功能性分析(http://dx.doi.org/10.1186/gb-2012-13-9-r50)
为了大规模地描述转录因子结合位点功能，研究人员预测了人启动子中的455个结合位点，并对它们进行突变。在四个不同的永生化人细胞系中，他们利用瞬时转染和荧光素酶报告检测在这些位点上对主要的转录因子CTCF, GABP, GATA2, E2F, STAT和YY1进行功能性的测试。在每个细胞系中，36%到49%的结合位点提高启动子活性，并且在这些细胞系中的任何一个当中，观察到这种提高启动子活性的功能的整体发生率为70%。

12. 基于转录相关因子的结合位点对人基因组区域进行分类(http://dx.doi.org/10.1186/gb-2012-13-9-r48)
研究人员通过机器学习方法构建出统计学模型来捕获三种匹配类型的区域的基因组特征：活性结合或不活性结合的区域；极端高程度共同结合区域(high degree of co-binding, HOT)和极端低程度共同结合区域(low degree of co-binding, LOT)；位于基因近端或远端的调节性组件。总之，这种区域在染色体位置、染色质特征、结合到它们之上的转录因子和细胞类型特异性上存在复杂的差异。

13. 利用RegulomeDB标注个人基因组中的功能性变异(http://dx.doi.org/10.1101/gr.137323.112)
研究人员开发出一种新的方法和数据库，即调节物组数据库(RegulomeDB)，从而能够指导人们理解人基因组中调节性序列上发生的变异。调节物组数据库包括来自ENCODE和其他来源的高通量的实验数据，以及利用计算预测和人工标注来鉴定出潜在的调节性序列变异体。

14. 制定ChIP-seq工作标准和指导准则(http://dx.doi.org/10.1101/gr.136184.111)
根据研究人员进行ChIP-seq实验的经历，ENCODE和modENCODE(model organism ENCODE, 模式生物ENCODE)为经常更新的ChIP-seq实验制定出一套工作标准和指导准则。

15. 利用RT-PCR-seq和RNA-seq统计所有人基因组编码的基因元件(http://dx.doi.org/10.1101/gr.134478.111)
在ENCODE项目中，GENCODE旨在通过人工管理和计算方法来准确地标注人基因组中所有编码蛋白的基因、假基因和非编码性的转录座位。利用一种被称作RT-PCR-seq(即先进行RT-PCR扩增，然后进行高通量多重测序)的方法可以来预测外显子连接(exon–exon junction)。研究人员验证了73%的预测结果，从而证实了1168个新的基因，其中大多数是非编码性的。

16. 细胞内RNA深度测序证实大多数RNA进行共转录剪接(http://dx.doi.org/10.1101/gr.134445.111)
研究人员分析了K562细胞系中通过RNA-seq测序而获得的细胞内RNA组分。他们发现在人基因组中，RNA剪接主要是在转录期间完成的。通过引入coSI 测量方法，他们证实在细胞质polyA+ RNA中，剪接几乎完全完成。因此，大多数RNA在被转录的同时进行剪接，即共转录剪接。

17. 发现上百个小鼠和人剪接来源的miRNA(http://dx.doi.org/10.1101/gr.133553.111)
非典型的miRNA模板并不适合经常用来标注典型miRNA的策略。通过对737个小鼠和人类小RNA数据集进行大规模分析，研究人员采取严格且保守性的策略对237个小鼠剪接来源miRNA(splicing-derived miRNAs, mirtrons)和240个人mirtrons进行标注。在哺乳动物中，这些mirtrons可以分为三类：常规性的mirtrons、5’加尾mirtrons和3’加尾mirtrons。

18. GENCODE：ENCODE项目的人基因组参照标注(http://dx.doi.org/10.1101/gr.135350.111)
GENCODE项目旨在利用计算分析、人工标注和实验验证来鉴定出人基因组中所有的基因特征。GENCODE第七版(GENCODE v7)公开发布了基因组标注数据集，包含了20687个蛋白编码的RNA基因座位、9640个长链非编码RNA基因座位，并且拥有33977个在UCSC基因数据库和RefSeq数据库中不存在的编码性转录本。它还对公开获得的长链非编码RNA(long noncoding RNA, lncRNA)进行最全面的标注。

19. 发现人基因组中疾病相关的功能性SNP(http://dx.doi.org/10.1101/gr.136127.111)
研究人员系统性地研究了多种类型的ENCODE数据与疾病相关基因SNP(single nucleotide polymorphism, 即单核苷酸多态性)之间的关联性，并且发现在当前鉴定出的疾病关联当中，存在功能性SNP的显著性富集。

20. 在两种人细胞系中，lncRNA很少表达(http://dx.doi.org/10.1101/gr.134767.111)
ENCODE项目发现被鉴定为lncRNA的9640多个人基因组位点中，迄今为止只有大约100个得到深入的研究以便确定它们在细胞中的作用。通过共同分析ENCODE项目最近产生的两个数据集：将表达的肽链映射到它们的编码性基因组位点的串联质谱数据；ENCODE在细胞系K562和GM12878中对长polyA+和polyA-组分进行RNA-seq测序产生的数据，研究人员利用机器学习方法RuleFit3将肽链数据与RNA表达数据对应起来。他们发现大约92%的GENCODE v7发布的lncRNA在这两种细胞系中并不表达。除极少例外，核糖体能够区分编码性RNA转录本和非编码性RNA转录本，因而在lncRNA组(lncRNAome)中，异位表达和隐性mRNA都是罕见的。

21. 关于个人和群体的基因组调节性序列变异的基因组学(http://dx.doi.org/10.1101/gr.134890.111)
为了更好地界定人基因组调节性序列变异的模式，研究人员选择了来自不同地理位置的53个人的全基因组序列，将他们的138个细胞和组织类型的DNase I超敏感位点(DNase I hypersensitive sites, DHSs)标记的全基因组调节性DNA序列图谱结合起来。研究人员估计相比于蛋白编码的DNA序列，每个人可能拥有很多更加具有功能重要性的调节性DNA序列变异体，尽管平均而言，它们可能产生更加小的影响。

22. 利用开放构象染色质区域来预测细胞类型特异性的基因表达(http://dx.doi.org/10.1101/gr.135129.111)
研究人员利用来自19项不同的人细胞类型的DNase-seq数据来鉴定全基因组范围的近端和远端调节性序列元件。通过匹配表达数据，他们将基因分为三类：细胞特异性的上调表达的基因、细胞特异性的下调表达的基因和组成性表达的基因。总之，他们成功地利用开放构象染色质的信息来解决利用调节性序列直接预测哺乳动物细胞特异性表达时存在的问题。

23. 探究ENCODE人RNA-seq数据中的RNA编辑(http://dx.doi.org/10.1101/gr.134957.111)
研究人员分析了来自ENCODE项目对14个人细胞系开展研究所获得的长串RNA-seq数据(这些数据经过PolyA选择，没有形成双链，且经过深度测序)以便鉴定出潜在的RNA编辑事件。他们发现RNA编辑和特异性的基因之间存在较强的关联。

24. 细胞类型特异性的转录因子结合的序列和染色质决定簇(http://dx.doi.org/10.1101/gr.127712.111)
为了研究DNA序列信号、组蛋白修饰和DNase对细胞类型特异性的结合位点的可访问性所发挥的作用，研究人员分析了ENCODE项目所开展的286项ChIP-seq实验。与之前的研究相一致的是，他们发现DNase可访问性能够解释很多转录因子的细胞类型特异性结合。不过根据他们建立的模型，他们还发现10个转录因子拥有显著性的细胞类型特异性的结合模式，4个转录因子表现出显著不同的细胞类型特异性的DNA序列偏好性。

25. 119个人转录因子结合的基因组区域附近的序列特征和染色质结构(http://dx.doi.org/10.1101/gr.139105.112)
通过对ENCODE项目在研究119个人转录因子时所获得的大约457个ChIP-seq数据集进行整合分析，研究人员在大多数数据集中鉴定出高度富集的序列基序，揭示出新的基序和验证已知的基序。

26. 分析人lncRNA的基因结构、进化和表达(http://dx.doi.org/10.1101/gr.132159.111)
研究人员分析了迄今为止最为完整的由GENCODE项目产生的人lncRNA标注：人工标注了产生14990个RNA转录本的9277个基因。他们的分析结果表明lncRNA是通过类似于蛋白编码基因的转录途径而被产生的。而且通过在多种人器官和大脑区域所开展的lncRNA综合性表达分析，他们发现相对于蛋白编码的基因，lncRNA通常较低地表达。

27. 染色质信号存在广泛的异质性(http://dx.doi.org/10.1101/gr.136366.111)
在许多种细胞系中，研究人员将14个染色质信号(12个染色质标记、DNase和核小体定位)与119个DNA结合蛋白的结合位点相关联在一起。他们开发出一种被称作CAGT(Clustered AGgregation Tool)的方法来解释染色质标记在信号强度、形状和隐性链定位上的异质性。

28. 对转录因子结合数据进行整合分析来理解转录调节(http://dx.doi.org/10.1101/gr.136838.111)
利用对ENCODE项目产生的大量数据进行统计学模型分析来研究转录因子的转录调节。研究结果揭示不同技术和RNA抽提实验程序所捕获的转录起始位点在表达水平的预测准确度上存在显著性的差异。

29. CTCF结合的广泛可变性与DNA甲基化相关联(http://dx.doi.org/10.1101/gr.136101.111)
CTCF是一个广泛表达的调节因子。研究人员通过研究19项不同人细胞类型的ChIP-seq数据来分析CTCF的全基因组结合模式。他们观察到高度重复性的但同时可变性非常大的基因组结合全景图，表明着CTCF结合受到高度细胞选择性的调节。

30. 细胞HepG2中高度整合的转录因子PPARGC1A结合网络(http://dx.doi.org/10.1101/gr.127761.111)
PPARGC1A是一个转录共激活因子。它结合并共同激活多种转录因子来调节大多数基因的表达。在这项研究中，研究人员在经过毛喉素(forskolin)处理的HepG2细胞中描述了一种核心的PPARGC1A转录调节网络。他们利用ChIP-seq首次描绘了PPARGC1A的全基因组结合位点，并且揭示出过多表达的对应于已知和新的PPARGC1A网络成员的DNA序列基序。他们然后利用ChIP-seq构建出6个位点特异性的转录因子结合伴侣的基因表达谱。重要的是，他们发现不同的转录因子组合结合到一套不同的功能性基因上，从而有助于揭示代谢性过程和其他细胞过程的组合性调节代码。

Yixf's blog

Face to Fate in Dream.

[转]ENCODE30篇论文全摘要聚焦人基因组功能研究

相关

Follow Yixf's blog