[转]我们细胞核中的DNA都有用吗?

原文链接:
我们细胞核中的DNA都有用吗?上:历史回顾
我们细胞核中的DNA都有用吗?中:人类基因组测序和ENCODE项目
我们细胞核中的DNA都有用吗?下:任重道远

  • 历史回顾

DNA是遗传物质,遗传物质决定了我们的生长、发育、疾病,甚至行为举止。DNA当然应该是有用的了。

但实际上,这个问题并非这么简单。生物学家在这个问题上争论了很久。2012年一项荣登多个排行榜的ENCODE项目,告诉大家,这个问题有结果了,人类基因组中的DNA基本上没有废物,都有用。科学界为之一震。震惊之余,仔细思考会发现,问题没有他们想象的那么简单。目前的研究结果,远未弄清楚我们的细胞核中有多少有用的DNA。美国的《Science》在将其选为2012年十大科学突破时,同时也简短的说明了很多科学界对ENCODE这一结论的怀疑。除了博客论坛外,也有正式的评论性文章在学术期刊上发表了(1,2)。这篇博文中,我先简单介绍一下这一领域的来龙去脉,再介绍国际上对ENCODE结论的质疑,最后讨论鉴定DNA有没有用应该怎么做。

在Watson和Crick提出DNA双螺旋模型之后,科学界普遍认可了DNA是生物体的遗传物质。既然是遗传物质,DNA当然是有用的了。这种简单朴素的想法没过多久,就受到了挑战。

氨基酸序列进化的分析显示,分子水平上,多数变异都是中性或者近中性的。这就是木村资生(Motoo Kimura)等人在上世纪60年代末提出的分子进化的中性学说(3,4)。这一学说可以说是对达尔文进化理论的完善和补充。达尔文强调自然选择是生物进化的动力,虽然也不排除随机偶然因素的作用,但对随机因素重视不够。中性学说提出后的大量分子进化研究,使人们真正认识到,至少在分子水平上,没有太大好处或者坏处的中性、近中性变异很普遍。当然,现在大家也不接受木村资生的极端中性说法,认为还是存在少量明显有益的变异,多数变异也并非完全中性,而是弱有害、弱有益的近中性突变(5)。一开始以为都是好的、坏的,后来有人说都是不好不坏的,这两种看法占据了三个极端特殊点,相当于一条数学坐标轴上的正向极大值、负向极大值和中间的0点。从哲学的角度,其实也很好理解,大善大恶的极端人很少,完全不好不坏的人可能也没几个,多数人还是小善小恶的平常人。事后诸葛亮的看法是,分子水平上的变异,极端的不可能是大多数,大多数必然是弱有害或者弱有益的。既然变异多数都是接近中性的,承载变异的DNA当然也应该有很大比例是弱有益或者弱有害的。

JunkDNA(按习惯翻译成垃圾DNA,准确翻译应该是废物DNA)概念的直接来源是人类对基因组大小的研究。一种生物单倍体细胞核内遗传物质的总和称为该生物的基因组。上世纪七十年代初,人们认识到,形态结构生活方式等表型上很接近的物种,有的基因组大小差别很大。基因组是遗传物质的总和,遗传物质决定了生物体的复杂性,当然应该是越复杂的生物基因组越大了。但实际观察的结果是,基因组大小与生物体的复杂性之间没有正相关性。这就是分子生物学中著名的C-value悖论(6)。DNA的多少与生物体的复杂性关系不大,也就是说基因组中有些DNA对生物体的复杂性可能没有贡献或者贡献很小。人们从这两个角度思考其中的原因并提出了假说。其中一类假说认为,基因组中大量DNA虽然没有编码蛋白质或者调控基因表达这类决定生物体复杂性的功能,但可以有其他作用小一些的功能,如作为填充物,决定细胞核大小进而决定细胞的大小、细胞分裂的快慢、甚至代谢速率等。表型上,体积或者速度上的一个小变化,但需要DNA含量上的巨大变异来完成。这一类观点的代表性假说是细胞核骨架假说(7)。另一类观点就是干脆认为大量DNA没用,将这些没用的DNA称为垃圾DNA(8)。

如果没用,为什么能在细胞核中存在呢?存在的就应该是有用的。持这种观点的人很多,包括神创论者、披着科学外衣的智能设计论者,以及对进化生物学了解不够多的生物学生或学家。我本人,过去就是最后一类人,虽不信宗教,但相信“存在的一定是有用的”,只不过它的用处可能没有找到。所以我本人曾经尝试着从不同的角度为非编码的DNA中的一大类(内含子)寻找生物学意义(9,10)。最近对自然选择理解深一些了,才开始反思,凭什么存在就必须是有用的?从自然选择的角度看,没用的,如果产生了,只要是坏处不够大,就不可能被淘汰掉。微弱有害或者干脆无害序列因转座、重组、复制错误等原因在基因组中不断产生,如果没有办法淘汰,那自然是越来越多。这样思考的结果是,不同生物基因组中垃圾DNA的多少取决于这种生物垃圾DNA的产生速度以及垃圾DNA的淘汰效率。产生速率大但淘汰效率低的物种基因组就会越来越大。

1、Eddy, S.R.(2012)The C-value paradox, junk DNA and ENCODE, Curr. Biol. 22:R898-R899.此文介绍了垃圾DNA的来龙去脉,同时从进化生物学的角度批评了ENCODE的结论。
2、 Niu DK and Jiang L (2013). Can ENCODE tell us how much junk DNA we carry in our genome? Biochemical and Biophysical Research Communications doi:10.1016/j.bbrc.2012.12.074.我们这篇文章主要从分子生物学的角度讨论。
3、http://baike.baidu.com/view/346559.htm
4、http://zh.wikipedia.org/wiki/%E6%9C%A8%E6%9D%91%E8%B3%87%E7%94%9F
5、木村资生的学生,也是中性学说的早期参与者之一,目前坚持近中性学说并撰写了多篇综述论文。http://en.wikipedia.org/wiki/Tomoko_Ohta
6、http://en.wikipedia.org/wiki/C-value_enigma
7、Cavalier-Smith, T.(1978)Nuclear volume control by nucleoskeletal DNA, selection for cell volume and cell growth rate, and the solution of the DNA C-value paradox, J. Cell Sci. 34:247-278. 此处不要与细胞核中的骨架蛋白弄混了。此假说中,大量DNA起到了广义的骨架作用。
8、Niu DK (2007). Protecting exons from deleterious R-loops: a potential advantage of having introns. Biology Direct 2: 11.
9、 Niu DK and Yang YF (2011). Why eukaryotic cells use introns to enhance gene expression: Splicing reduces transcription-associated mutagenesis by inhibiting topoisomerase I cutting activity. Biology Direct 6: 24。

  • 人类基因组测序和ENCODE项目

近二十年来,生物学界规模最大的两个科研项目,大概就是人类基因组测序和ENCODE项目了。这两个大项目产生了海量的生物学数据,不可避免地影响人们对包括垃圾DNA在内的很多基本生物学问题的思考。

人类基因组测序,研究清楚了人类基因组中的核苷酸组成和人类基因组中编码蛋白质和tRNA、rRNA等的基因序列。这些序列之和也不够人类基因组的1/20。当然,可能还有一部分序列参与基因表达的调控。但除了个别科学家外,多数人不相信人类基因组中那么多序列用于调控那么一点编码序列。基于这一点,垃圾DNA的观念深入人心。但应该指出的是,很多人接受垃圾DNA的观点是不情愿的,也不是基于自然选择的思考,而是根据人类基因组测序的结果产生的直觉。

人类基因组测序没有弄清楚基因是怎样调控的。其后的ENCODE项目就是要深入发掘人类基因组中所有的调控元件。研究结果发现,除了原来已知的mRNA、tRNA、rRNA外,人类基因组中还有大量的序列在转录着,有转录活性的DNA总共占了人类基因组的62%。除此之外,调控蛋白结合位点、DNaseI敏感位点等基因表达活性的标志性特征序列也大量存在。加上这些序列,超过了人类基因组的80%。考虑到现在已经研究的人类细胞类型数量远小于人类实际细胞类型,很多细胞特异性基因表达调控有待发现,ENCODE项目的负责人Birney估计,剩余的20%也应该是转录或者参与调控的,人类基因组中100%的序列都应该是有功能的。ENCODE项目组在Nature发表的论文中,称人类基因组序列大部分都有“biochemical function”,同时发表在Nature和Science的评论文章就把biochemical省略了,直接说人类基因组中大部分序列是有用的,垃圾DNA的观念已经成为历史。

这些论文发表之后,很多分子生物学家心中可以说一块石头落了地。很乐观的期望是人类基因组中的遗传信息及其调控方式可以用一本巨大的百科全书来描述。大家喜欢清楚,习惯面对井井有条、便于研究操作的事物。同时,神创论和智能设计论者可以说是欢呼雀跃,进化是不完美的,创造和设计才是完美的,现在证明人类基因组没有任何垃圾,很完美,进化论的根基没了。他们的欢呼也就激起了进化生物学家的愤怒,估计如果没有宗教人士的参与,ENCODE项目作为一个纯科学问题,争论不会有这么激烈。Science在将ENCODE列入2012年科学界十大突破之一时,这样描述了批评人士的看法“But several scientists in the blogosphere called the coverage overhyped and blamed the journals and ENCODE leaders for overplaying the significance of the results”。很遗憾,我们国家的网络防火墙把国际上的各大博客网站当成匈奴挡在长城之外了。我个人经会翻墙的网友帮助看了几篇博文。

科学家应该有社会责任,如果对ENCODE项目研究结果的overhype为宗教人士提供了攻击科学的工具,这确实不是一个简单的生物学问题了。我们就应该比一般的科学争论更加重视。

ENCODE项目overplaying的思路是:biochemical activity–>biochemical function–>biological function–>no junk。他们的大规模研究,发现了人类基因组中大部分序列都转录或者参与转录过程的调节、都有生物化学活性。但生化活性等于生化功能吗?他们认为毫无疑问,所以也就没有任何解释直接就把有生化活性的DNA说成是有生化功能了。生化功能,争议也还不太大,生化功能也就是可以参与生物化学反应。但进一步把生化功能等同于生物学功能,成了判定有没有垃圾DNA的依据就是overplaying了。有用没用、是否是垃圾DNA,应该看这些序列在基因组中出现或者从基因组中丢失是否对生物有益或有害。

首先说,并不一定是有用才转录,很多RNA的转录可能是随机偶然现象。更重要的是,很多分子生物学研究表明,细胞中抑制性转录(repressivetranscription)很常见。抑制性转录就是以低水平的转录作为防止高水平有害转录的手段。其中的细节经过十来年的研究,已经比较清楚了(1)。另外,现在还发现了很多RNA虽然转录了,但会被细胞中的RNA质量监控机制(NMD)作为废物降解掉。因此,转录活性不能成为判断一段序列是否有用的依据。调控蛋白结合位点、DNaseI敏感位点等基因表达活性的标志性特征相关的序列,也只能说明自身或者附近的序列有转录活性,不能成为它们有没有用的依据。它们可能只是对转录过程有用,但如果转录的产物是没用的,所以它们的作用也就没用了。关于这些问题更详细的讨论,请参见我们的评论性文章(2)。

1、感兴趣的网友可以用repressive transcription作为关键词,从SCIE等数据库中查找相关论文。
2、Niu DK and Jiang L (2013). Can ENCODE tell us how much junk DNA we carry in our genome? Biochemical and Biophysical Research Communications doi:10.1016/j.bbrc.2012.12.074.

  • 任重道远

我们不认同用生化活性作为判断DNA是否有用的依据,那么我们应该支持什么研究呢?

除了转录活性,ENCODE项目组还援引了另外一方面的数据:人类功能SNP(专业术语叫GWAS SNP)。后者发现了很多影响或者决定人类各种表型特征或疾病的单核苷酸变异。这些变异除了少量发生在编码序列外,多数发生在调控蛋白结合位点等ENCODE项目组发现的调控活性区域。这些序列的变异确实影响了生物体的表型,它们的存在不能说是可有可无的。但我们发现,功能SNP的覆盖度太低。以调控蛋白结合位点为例,平均429000个结合调控蛋白质的碱基序列才有一个已经证明的功能SNP。而一般的转录因子结合位点长度是10个碱基。也就是说,功能SNP可以证明一些生化活性区域是有用的,但功能SNP证明的区域占ENCODE报道的区域的很小比例。大部分有生化活性的区域仍未证实。另外,考虑到衰老的进化理论、基因突变的gain of function等因素,即便是功能SNP也不敢100%说就一定有用。

如果一段序列是有用的,那么它变成别的序列就是有害的,就要被淘汰。这样进化的结果,这段序列很保守。多个物种间比较时,会发现它的物种间差异很小。这是进化生物学家和基因组学家普遍认可的标准(1)。物种间和人类个体间比较研究发现人类基因组中大约9%的序列具有一定程度的保守性,应该是有生物学功能的(2,3)。

但通过序列的保守性判断序列是否有用可能低估有用的序列所占比例。目前的序列保守性研究只能分析核苷酸序列在一级结构上的保守性,有些生物学功能只要存在特定的(蛋白质、RNA或DNA的)二级结构即可,无需一级结构保守。另外基于序列保守性的方法无法观测不依赖于特定序列的生物学功能。比如,一个内含子的存在使基因表达的时间放慢几分钟,这种作用已经发现在一些发育关键基因是调控时间节律(4)。这个例子中,只要内含子存在并且能够剪接就够了,内含子中的碱基怎么变都没关系。

确定一段序列是否有用,最根本的手段是去掉这段序列看看对生物体有没有影响。也就是DNA片段敲除实验。当然由于伦理道德原因,敲除实验在人类不现实。但我们可以通过小鼠、猴子等物种的研究,大致推测人类基因组中有用序列的比例。在我前面博文的讨论中,网友闫双勇提出了类似看法。但DNA敲除实验说起来容易,做起来难。在酵母上,曾有人想区分哪些基因是必需的、哪些是不必需的。与我们目前讨论的问题有点像。他们把酵母的5000来个基因逐一敲除后构建了5000来个突变株,逐一检测这些突变株的适合度(也就是生长、繁殖等表型特征)是否降低了。结果发现了80%的以上的基因敲除突变株正常生活。大部分基因好象是可有可无的(5)。但后来技术进步了,更大规模的研究可行了。相关研究人员在1144种培养条件下分别检测那5000多种基因敲除菌株,用5百万次检验,发现酵母基因组中的大部分基因都是有用的。过去研究认为没用的基因只是在当时有限的检测条件下细胞生长不需要的基因(6)。后来,又有人做了酵母的内含子敲除实验,得到了类似的趋势。酵母基因敲除的经验告诉我们,要想通过DNA敲除确定猴子或者小鼠基因组中有哪些序列是有用的,研究项目的规模将非常巨大,应该是一个很大的工程。

在酵母基因敲出初步实验发表之后,很多人强调基因调控网络的冗余现象,为非必需基因的存在找理由。现在人类基因组中是否有垃圾DNA的问题上,也有网友提出冗余的问题。我的答复是,“冗余不就是多余吗?就像一个机关一样,表面上某个工作人员也在干活,上班时间没有睡觉,但缺了他一点事没有,一切照常运转。他是冗余的,也就是可有可无的。我们就可以把这个人员编制称为junk编制,没用的编制。”

注:此博文属于评论性文章《Can ENCODE tell us how much junk DNA we carry in our genome》的简化版,该文发表在著名的“垃圾期刊”BBRC上。

1、Ponting C.P. and R.C. Hardison (2011)What fraction of the human genome is functional?, Genome Res. 21:1769-1776.
2、Ward L.D. and M. Kellis (2012)Evidence of abundant purifying selection in humans for recently acquired regulatory functions, Science 337:1675-1678.
3、Lindblad-Toh K., et al. (2011) A high-resolution map of human evolutionary constraint using 29 mammals, Nature 478: 476-482.
4、Takashima Y., et al. (2011) Intronic delay is essential for oscillatory expression in the segmentation clock, Proc. Natl. Acad. Sci. USA 108: 3300-3305.
5、Giaever G.(2002)Functional profiling of the Saccharomyces cerevisiae genome, Nature 418:387-391.
6、Hillenmeyer M.E., et al. (2008) The chemical genomic portrait of yeast: Uncovering a phenotype for all genes, Science 320: 362-365.