注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

杨鸿智-后现代理论医学博客

《后现代医学》、《正反馈医学》、《自体原位器官重构技术》

 
 
 

日志

 
 
关于我

这是一个宣传后现代理论医学的博客.后现代理论医学是以系统理论为指导的新医学.该理论认为,在生命组织中干细胞是决定机体功能状态最基本的因素.通过调节机体内环境和为干细胞提供再生所需要的物质和能量,就可以使干细胞在患者体内原位再生,实现器官重构,使器质性病变得到治疗.现在,已经在北京医药信息学会内成立了后现代理论医学专业委员会,杨鸿智是主任委员.

网易考拉推荐

(5)基因组信息分析  

2013-06-03 19:49:10|  分类: 干细胞病 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

5)基因组信息分析

http://www.lmbe.seu.edu.cn/chenyuan/xsun/bioinfomatics/Web/CharpterFive/5.1.htm

 

人类基因组计划的主要成果是得到一本“天书”,这本天书既简单又复杂。说它简单,是因为这本天书仅仅由4个字母构成,这4个字母分别是ATCG;说它复杂,是因为这本天书包括所有人类生长发育的信息,隐含人类生老病死的规律。对于基因组序列,我们最关心的就是从序列之中找到基因及其表达调控信息。可以通过识别特殊的序列功能位点、分析序列的组成特征来识别基因,发现与基因表达调控相关的信息。

 

5.1 关于遗传语言

 

5.1.1 基因组DNA的奥秘

 

生命是大自然最伟大的创造物,经过亿万年的进化,生命的形式从简单的有机物发展到现在高度复杂但有序的生物系统。蛋白质是构造生命机器的基本元件,大量结构不同、功能各异的蛋白质在遗传信息的控制之下,被不断地合成出来,并有机地组成复杂的生物体。遗传信息存贮在基因组中,具体说就是存贮在由4种字符组成的核酸序列中。随着分子生物学中心法则的确立,人们逐渐认识到,遗传信息的载体主要是DNA(在少数情况下RNA也充当遗传信息载体),控制生物体性状的基因则是一系列DNA片段。一方面,DNA通过自我复制,在生物体的繁衍过程中传递遗传信息;另一方面,基因通过转录和翻译,使遗传信息在生物个体中得以表达,并使后代表现出与亲代相似的生物性状。在基因表达过程中,基因上的遗传信息首先通过转录从DNA传到RNA,然后再通过翻译从RNA传递到蛋白质。基因控制着蛋白质的合成,基因的DNA序列到蛋白质序列存在着一种明确的对应关系,而这种对应关系就是我们所知道的遗传密码。1961年,科学家Nirenberg使用信使RNA分子研究得到第一个遗传密码,1969年确定全部的遗传密码。遗传密码的发现拉开了在分子水平上的生命信息科学研究的序幕,启动了人类探索遗传语言奥秘的进程。许多科学家认为,基因组DNA序列并非是一种简单的生物分子序列,而可能是一种语言,该语言描述遗传信息,控制生物体的性状,规定生物个体的生老病死。为了深刻揭示这种遗传语言的奥秘,科学家们开始测序人类及其它模式生物基因组,希望解读和破译遗传信息,使人类在分子水平上全面地认识自我。由于生物技术的高速发展,人类基因组计划已经提前至2003年全部完成,我们已经得到了关于人类遗传信息的长达数百万页的“天书”。这本天书就是用遗传语言书写的人类遗传蓝本,是解读遗传语言的基础。之所以称它为天书,不单是因为它所包含的信息量巨大,更重要的是目前人类对它了解甚少,还无法读懂它。天书中只有4个字符(碱基ATGC),既没有段落,也没有标点符号,是一个长度为3×109的一维序列。迄今为止,科学家对这本天书了解最多的部分就是遗传密码,或者说掌握了DNA翻译成蛋白质的编码规律。遗传密码又称为三联体密码,它说明DNA序列三个连续的碱基为一个蛋白质的氨基酸编码。已知自然界中的蛋白质由20种不同的氨基酸所组成,究竟需要几个连续的碱基为1个氨基酸编码呢?显然,1个碱基不行,1个碱基最多只能编码4种氨基酸。那么,2个碱基是否能够完成编码任务呢?2个碱基最多能产生1642)密码子,只能为16种氨基酸编码,也不行。而3个连续碱基可能形成的密码子共有6443)个,完全满足编码的需要,所以遗传密码是三联体密码。由于三联体密码的密码子数目大于氨基酸种类数目,所以,对于一种氨基酸,可能存在多个密码子,同义密码子一般在第三位发生变化。例如UCUUCCUCAUCG均为丝氨酸的密码子。显然,这种编码方式具有一定的容错性,一位密码发生错误可能不会对蛋白质翻译结果产生影响。假设丝氨酸密码子的最后一位发生变化,其变化结果仍然是同义密码子,对信息传递影响不大。遗传密码具有通用性,在生物界除了线粒体等细胞质基因外,密码子几乎是通用的,因而,可以说生物界中的遗传语言也是通用的。密码子的使用是非随机的。如果密码子的第一、第二位碱基分别是AU,那么,第三位将尽可能使用GC;反之亦然。由于GC之间可以形成三对氢键,而AU之间只能形成两对氢键,因此,如果三位都用GC,则配对容易,分解难;三位都用AU,则相反。一般地说,高表达的基因,要求翻译速度快,密码子和反密码子配对快、分手也快。密码子的第一位和第二位极少有选择的余地,所以,只能在第三位进行取舍。密码子的使用具有一定的统计规律。基因对同义密码子的使用存在着偏爱,但不同种属偏爱的密码子不同,并且偏爱程度也不同。特别的是,根据统计,在人类基因组中,密码子第三位取AU的情况占90%,而第三位取GC仅占10%。密码子中三个碱基所处的位置,与它所编码的氨基酸性质存在着某种联系。例如,如果密码子的第一位是U,则该密码子编码的是芳香族氨基酸。又如,密码子的第二位与氨基酸的亲疏水性有关,编码疏水氨基酸的密码子,其第二位碱基是U;编码亲水氨基酸的密码子,其第二位碱基是A;第二位碱基是GC的密码子所编码的氨基酸,其亲水性和疏水性均居中。人类基因组是科学家研究的第一个脊椎动物染色体基因组,人类基因组已成为其它脊椎动物中的代表。它比线虫和果蝇基因组大30倍左右,比酵母的大250倍左右。尽管它的长度比较大,它的基因数目似乎只有果蝇和线虫基因组基因数目的两倍或三倍。人类基因组大约有3万多个基因,这些基因分布在染色体中的DNA序列上,或者说就隐藏在“天书”中。到目前为止,已明确定位的基因仅占3万多个基因中的一部分。那么如何在“天书”中找到其它的基因呢?一种方法是通过分子生物学实验确定基因的位置和序列,另一种方法就是通过信息分析寻找基因。科学家已经发现在基因的前后两端存在一些特殊的信号,基因的蛋白质编码区域与非编码区域在序列的统计特征上有明显的差异,因此,可以用数学方法、人工智能的模式识别方法或神经网络方法识别DNA序列上与基因相关的信号,区分统计特性,从而识别基因。

 

虽然我们已经了解基因的结构,掌握了遗传密码,但是相对于庞大的基因组,我们了解得还很少。就人类基因组而言,编码区域在人类基因组所占的比例不超过3%。其余97%是非编码序列。对于非编码序列,人们了解得比较少,尚不清楚其含义或功能。然而,非编码区域对于生命活动具有重要的意义。这部分序列主要包括内含子、简单重复序列、移动元件(mobile element)及其遗留物、伪基因(pseudo gene)等。卫星(satelliteDNA、小卫星(mini-satelliteDNA、微卫星(micro-satelliteDNA就是一些典型的重复序列。移动元件有:以DNA为基础的移动元件(DNA based transposable element)、自主的逆转录转座子(autonomous retrotransposon)、非自主的逆转录转座子(non autonomous retrotransposon)等。科学家们通过分析人类基因组,发现四种主要的重复元件覆盖了43%的人类基因组,这四种重复元件包括短散布序列(SINEs)、长散布序列(LINEs)、长末端重复元件(LTR elements)以及DNA转座子。除此之外,在基因组序列中还有各种顺式转录调控元件,如启动子、增强子、沉默子等,也都属于非编码序列。

 

我们知道基因组有GC碱基含量相对较高的区域和AT含量较高的区域,然而,是什么使得基因组中GC/AT比值不调和仍然是一个未被解答的问题。我们所了解的事实是:在基因组中富含GC碱基的区域,其基因密度较大且内含子的平均尺寸较小。

 

虽然对97%的非编码区的含义和作用人们还不清楚,但是,从生物进化的观点来看,这部分序列肯定具有重要的生物学功能。人类是大自然完美的创造物,难以想象在人类基因组中存在那么多无用的东西。目前对非编码区普遍的认识是,它们与基因在四维时空的表达调控有关,即控制各个基因在什么时间、在生物体的什么部位表达。基因的表达调控必定存在着一套严格的规律,这些规律有待我们去探索、发现。我们确实也了解一小部分非编码区域,如,与基因转录和翻译有关的调控区,像基因的启动子、增强子等。

 

内含子自1977年被发现以来,逐渐被明确地定义为:基因中间插着的若干段序列,在RNA转录物水平上经剪接除去,不参与该基因在蛋白质水平上的表达。那么,内含子是如何来的?内含子的存在究竟有何意义?它担负着什么样的功能?内含子又何以能在一些真核生物中非常广泛地分布呢?关于内含子起源的问题,还没有确定的说法。一直有两种假说。一种假说认为,内含子与它所在的基因一样古老,在装配第一个这样的基因时,内含子就已存在。早期的内含子具有自催化、自我复制等能力,因此,它们是原始基因和基因组的组织与复制必不可少的部分。而今天的原核生物和少数低等的真核生物,由于它们需要进行快速的DNA复制从而进行快速的细胞分裂,因而失去了内含子。现代的内含子是一类进化遗迹,它们之所以能继续存在,是因为具有重新组合基因组中的外显子以形成新的基因的能力,即内含子能赋予其携带者更大的进化潜力。另一种假说认为,内含子不是基因原有的,而是在进化的某一过程中通过转座作用插入到连续基因中去的,内含子在较高级的功能基因或在真核生物出现之后才产生。这种假说必须面对一个难题,即内含子最初如何能插入到连续编码的基因中而保持基因的功能不变?

 

5.1.2 探索遗传语言

 

对于遗传语言,可以用语言学的方法进行研究,以发现遗传语言的规律。人类已经成功地使用了两种语言,一种是人类进行感情和信息交流的自然语言,它是随着人类社会文明发展而不断发展丰富的;另一种语言是计算机高级程序语言,如BasicFortranC等,它们是随着人类电子信息科学技术发展而创造出来的一种语言。这两种语言的代码都可以被转换为二进制的01序列。目前世界上先进的图书馆已经将大量的自然语言文字转换成二进制序列,存放在数字图书馆中。而利用计算机编译程序,也可以将高级程序语言转换为二进制机器指令,形成可执行程序。遗传语言的代码实际上就是DNA序列,是由ATGC四种字符组成的一种四进制代码,毫无疑问也可以转换为二进制序列。因此,三种语言在形式上可以统一起来。科学家在探索性的实验中发现,在不同的二进制序列中,01的长程关联不同。自然语言的二进制序列01的长程关联性远远低于高级程序语言的二进制序列,而遗传语言编码区域01的长程关联性远低于非编码区域。这在某种程度上说明:非编码区域相当于“程序”,起着控制的作用。同时,也暗示在基因组序列中可能隐藏着某种语言的规律性。一维线性的DNA分子在特定环境下通过复杂而准确的信息程序处理,拓展为一个四维时空生命体,一个具体的生命体是一个基因组的生动表现。从信息学的角度来看,蛋白质编码区域所包含的信息相当于待加工的“数据”,这样的数据经过加工处理以后产生对应的蛋白质;而非编码区域则相当于“程序”或“指令”,这些程序确定如何对数据进行处理,确定如何在时间和空间方面控制基因的表达和蛋白质的合成。DNA序列好比是计算机上的一串代码,但不是储存在电子芯片上的01代码,而是储存在染色体上的四字符代码串。在计算机中,数据与程序是相对分立的,而在染色体上,数据与程序则是相互嵌套的。如同计算机程序对输入数据处理以后产生输出结果一样,染色体上的基因经过调控程序的解码和翻译,产生蛋白质,从而发挥生物学功能。无论是数据还是程序,都属于信息,但是,它们的作用不一样,信息组织的规律也不一样。可以用信息学方法区分两者,如前面提到的基因识别。语言的破译与密码的破译紧密联系,用密码学的方法研究遗传语言,可能会得到有益的启示。是否在基因组中仅存在三联的编码方式呢?是否在传递不同信息时采用不同字长的编码呢?三联密码用4DNA字符编码蛋白质的20种字符,三联密码子的个数为64,大于20并且最接近于20,因此,三联密码是DNA与蛋白质之间传递信息最经济的编码方式。按照这样的推理,可以认为DNARNA间的信息传递是单联编码,因为DNARNA的符号都是4种。从基因转录调控信息来看,对于人类3万多个基因需要非常多的调控信息,以形成基因的不同表达模式,因此,需要更复杂的编码方式。这就是生物学家在寻找其他非三联信息编码方式的原因。根据分子生物学中心法则,遗传信息沿着DNARNA→蛋白质这条链传递,在信息传递的最后一个环节中,首先根据RNA合成多肽链,然后,多肽链折叠成特定结构的蛋白质。关于如何折叠,至今人们所知甚少,但是,科学家认为多肽链的氨基酸序列到蛋白质的空间结构之间存在着某种规律,对于这种未知的规律,一些科学家称之为第二遗传密码,这种密码比基因序列到蛋白质序列的编码更加复杂。

 

5.1.3 关于生物复杂性

 

生物的复杂性不仅仅是与基因的数目有关。人基因组中的蛋白编码基因约为3多个,而线虫有2万个基因。从基因的个数来看,人基因与线虫基因之比为3/2。但是,作为一种生物,人显然比线虫复杂得多,仅仅从基因数目上无法解释这种差异。有科学家将生物的复杂性定义为理论上其基因组可能达到的转录状态的数目。设想一个简单的模型,每一个基因都由“开”或者“关”两种状态来表示,那么包含N个基因的基因组(理论上)就可以编码成2N个状态。按照这个模型,人与线虫的转录状态数目之比为:

 

                                                        230000/220000=210000103000

 

这个比值是巨大的。如此大的数目确实可以说明人类相对于线虫的复杂性和优越性。生物的复杂性是在基因表达调控机制向更复杂、更细微方向发展的同时随之进化的。

传统的分子生物学习惯于分析单个基因。但是生命现象并不是单基因的简单堆积,而是高度有组织的多基因网络。生命组织是高度有序的,而这种有序性来自于基因之间的协同作用,来自于复杂的基因调控系统。在特定的时刻、特定的生物体部位,一些特定的基因得到激活,而其它基因处于抑制状态。处于激活状态的基因在调控系统的控制下协同工作,产生对应的蛋白质,完成特定的生物学功能。调控的信息存贮在DNA序列中,但是执行调控动作的则是一些特殊的调控蛋白。那么,调控蛋白又是受什么调控的呢?依次追究下去,就会发现生物体中存在着一个极为复杂的调控网络。有些科学家正在用系统的思想和数学的方法对基因调控系统进行分析研究,他们认为在基因层次上,生物的调控作用符合控制论原理,并建立起一些调控系统的数学模型。

 

5.1.4 基因组学研究带来的希望   

 

到目前为止,我们对遗传语言了解得还很少,特别是仍不清楚编码在DNA序列上的一维程序如何在四维时空中控制生命体的生长发育,不知道遗传信息怎样从空间形式转化为它的时间形式。然而,随着生物学的迅速发展,特别是人类基因组计划的顺利推进,人类已获得大量的与基因相关的实验数据,并且实验数据的积累速度在不断地增加。这些实验数据不仅包含DNA序列的信息,也包含DNA功能的信息,特别是包含基因在四维时空中的表达信息。这些信息具有丰富的内涵,其背后隐藏着人类目前尚不知道的生物学知识。实验数据的迅速增加对于揭示新规律是一个非常有利的因素,并为全面破译遗传密码创造了很好的条件。充分利用这些数据,通过数据分析与处理,揭示这些数据的内涵,得到对人类有用的信息,将是科学家们面临的一个严峻的挑战。在生物信息学研究领域中,生物学家、数学家和计算机科学工作者协力合作,将实验研究与理论分析相结合,努力探索遗传语言的奥秘,深刻揭示生物界遗传信息的本质。生物信息学的最终目标是使人类彻底了解、掌握遗传信息的编码、传递及表达,从根本上认识自我。

 

 

  评论这张
 
阅读(68)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017