本站小编为你精心准备了基因组单核苷酸多态性运用参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
1人类基因组
人类基因组计划已经取得了显著的进展,约占整个基因组6.3%的DNA序列已被测定,已鉴定的基因7484个,约1万条人类基因的序列已被克隆。人类基因组全序列测定预计可以提前在2003年完成[1]。人类基因组是一个十分稳定的体系,不同的民族、群体和个体都有46条染色体,有相同数目的基因和基因分布,也有基本相同的核苷酸序列。正是基因组结构的这种稳定性保证了人类作为一个物种的共同性和稳定性,也决定了目前基因组测定是有意义的,即有代表性的。
然而人类基因组又是一个变异的体系。在长期进化的过程中,基因组的DNA序列不断地发生变异。这些变异可能是有害的、有益的或中性的,它们其中的一些被保存下来,导致了不同种族、群体和个体间基因组的差异或多态性。除了同卵双生子外,没有两个个体的基因组是完全相同的。随着基因组测序的进展,全面深入地了解个体和群体间基因组的变异或多态性已成为可能,并日益显示其重要性。这不仅因为更多的多态性标记有助于基因的鉴定和定位,同时通过建立序列变异与表型、序列变异与疾病风险之间的关系,将把对疾病,特别是对复杂疾病的预防、诊断和治疗置于坚实的遗传学基础上,从而使人类基因组计划给人类健康带来实际的利益。
人类基因组中的遗传多态性较多地表现在重复序列,特别是短串联重复序列,如小卫星DNA和微卫星DNA,它们的多态性主要是基于重复序列拷贝数的变异。微卫星DNA位点在人类基因组中数以千计,它们分布广泛,是很好的遗传标记。另一类更加普遍的多态性是基因组中散在的单个碱基的不同。这种不同虽然也包括单个碱基的缺失和插入,但更多的是单个碱基的置换,即单核苷酸的多态性(singlenucleotidepolymorphism,SNP)。SNP为数众多,分布广泛。如果比较任意两条同源染色体的碱基序列,那么平均约1000碱基对(bp)就有一个碱基不同。单个碱基变异能导致基因功能异常者习惯上被称为突变。
随着人类基因组计划的进展,人们愈来愈相信基因组中的这类多态性有助于解释个体的表型差异、不同群体和个体对疾病,特别是对复杂疾病的易感性、以及对各种药物的耐受性和对环境因子的反应。因此,寻找研究SNP已成为人类基因组计划的内容和目标之一[1,2]。例如美国国立卫生研究院(NIH)在1998年准备斥资4000万美元就SNP的检测技术及应用进行招标,并强调SNP计划的迫切性[3,4]。本文拟在对人类基因组SNP作一简要说明的基础上,着重介绍SNP的医学意义及其应用,并兼及一些发展中的批量鉴定和检出SNP的方法。
2单核苷酸多态性
单核苷酸多态性(SNP)是指基因组内特定核苷酸位置上存在两种不同的碱基,其中最少一种在群体中的频率不小于1%。尽管遗传密码由4种碱基组成,但SNP通常只是1种二等位基因的(biallelic),或二态的遗传变异。SNP作为一种碱基的替换,大多数为转换,即一种嘧啶碱基换为另一种嘧啶碱基或一种嘌呤碱基换为另一种嘌呤碱基,转换与颠换之比2∶1。SNP在CG序列上出现最为频繁,而且多是C→T,原因是CG中C即胞嘧啶常为甲基化的、自发地脱氨后即成为胸嘧啶。人类基因组中共有多少SNP位点,目前尚难以确定,这主要是因为还不确知单碱基变异的程度,而各作者对此估计不完全相同,有作者估计每400bp就有1个碱基不同,另一些作者估计碱基的变异频率在0.5‰~10‰之间。
如果假定1/1000的碱基是多态的话,那么人类30亿碱基中当有约三百万SNP位点。由此可见,SNP数比微卫星标记数要高出几个数量级。尽管就单个SNP而言只有两种变异体,变异程度不如微卫星或小卫星DNA。但SNP在基因组中数量巨大,分布频密,因此就整体而论,它们的多态性要高得多。而且由于SNP是二态的,易于自动化批量检测,因而被认为是新一代的遗传标记(第1代的遗传标记是RFLP,第2代是各种短串联重复序列STR标记)。目前的SNP计划希望首先鉴别出已知基因的cSNP,然后在5年内制作出拥有100000个SNPs的基因组,以满足比较均质群体中的关联分析和其它研究的需要[1,3]。SNP在单个基因或整个基因组中的分布不是均匀的。有根据认为,由于选择压力等原因,SNP在非转录序列中要多于转录序列。
由于基因组中为蛋白质编码的序列仅约为3%,绝大多数SNP当位于非编码区。在蛋白质编码区的SNP被称为cSNP,它们和位于表达调控序列中的SNP在功能或致病方面具有更重要的意义[4]。这样的多态性常被称为功能多态性(functionalpolymorphism)。此外,在一些基因中有SNP的密集区,但由于已知SNP尚少,有关SNP的分布规律还有待进一步研究。
3SNP的医学意义和应用
基因在决定个体的正常表型,即形态、代谢和免疫状态等方面起着决定性的作用。通过赋予个体对疾病的易感性或抵抗力,以及影响机体与环境因素的相互作用,基因也对任何一种疾病的发生发展起着重要作用。因此,人们希望能识别这些基因,以加深对疾病的认识,从而改进疾病的诊断预防。限于技术条件和其它一些原因,迄今疾病的遗传研究大多从单个基因入手,或按照单基因的模式进行,很少能够考虑包括成千上万基因的整个基因组及其功能状态。但随着SNP的不断发现和人类第3代遗传标记图的绘制,现在已有可能描绘在某一疾病时或发育阶段中多个基因位点甚至整个基因组的状态。
3.1连锁分析与基因定位SNP可以用于疾病的连锁分析和未知致病基因的定位。SNP数量大和分布广,在任何已知或未知致病基因附近都可能找到众多的SNP,并用于遗传病的单倍型诊断。在有适当的家系资料时,SNP又可用作遗传标记来定位未知基因。与目前广泛使用的微卫星小卫星基因图比较,未来SNP图的标记更多,分辨率更高,定位基因也更加准确。有作者计算,有700~900个SNP的基因图与目前用于基因组扫描的300~400个微卫星位点的基因图的分析能力相当,但制作前者要容易得多。而如果采用1500~3000个SNP作扫描,结果明显优于目前使用的微卫星扫描[5]。
3.2疾病的关联分析如果说连锁分析是基于家系中一种疾病或表型与某个等位基因的同时存在(coexistence)或相联系的话,那么关联分析则是基于群体中某种疾病与某个特定等位基因的频率相关。经典的连锁分析常苦于家系中患病成员的不足和DNA标本的不易取得,而关联分析无需家系资料,只需研究一个群体中的患者与非患者。当一个遗传标记的频率在患者明显超过非患者时,即表明该标记与疾病关联。通过比较分析两者的单倍型和发现连锁不平衡,关联分析也可将基因组中任何未知的致病基因定位。但要做到这一点,估计需要有3万~30万个SNP[4]。
3.3复杂疾病或过程的基因定位迄今为止,在复杂疾病和复杂生理过程相关基因的识别和定位方面取得的成绩仍十分有限。这是因为它们涉及的基因众多,而一个基因怎样影响另一个基因的表达,即基因间的相互作用还不清楚,众多环境因素所起的作用也难以确定。结果是多数致病等位基因的外显率低,只有少数等位基因的携带者才有明显的表型或症状。这就使传统的家系连锁分析方法无能为力。近些年在复杂疾病基因定位方面比较成功的例子,如乳腺癌、遗传性非息肉性结肠癌和Ⅱ型糖尿病的某些亚型,都属涉及的基因相对不多和致病基因外显率高的肿瘤或疾病。然而,如果有基于SNPs的高分辨率的基因图作为全基因组连锁分析或关联分析的基础,则可能同时筛查到复杂疾病或性状的众多相关基因。许多作者都希望SNP的大量发现和第3代的基因图的制成与应用能给复杂疾病的基因定位带来重大突破。最近有作者声称已通过SNP关联分析发现了两个前列腺癌相关基因[6]。又有作者以SNP为标记,用半参数法作连锁/连锁不平衡综合分析和模拟基因组扫描试验以定位复杂性状的基因,并表明综合分析可以获得比单纯连锁分析或单纯连锁不平衡分析更好的结果[7]。
3.4法医学应用SNP作为最多的一类遗传标记可以用于基因分型,从而在个人识别、亲权鉴定中发挥作用。已有作者采用寡核苷酸连接分析(PCR-OLA)测定含有20个常见SNP的PCR扩增片段作基因分型。这种分型可以采用比色分光光度方法,并自动化地完成,因而能在较大群体中进行[8]。
3.5疾病发病的分子遗传机理的阐明遗传病研究中已经积累了大量碱基置换引起基因功能或表型异常的病例。近年来还建立了p53、HPRT、PAH等基因的突变数据库[9,10]。如果能系统地鉴定和记录基因的cSNP和基因调控区的SNP,那么通过病例-对照的突变分析,就有可能阐明这类SNP与异常表型之间的关系,从而对疾病遗传机理的阐明作出重要贡献。另一个诱人的前景是,由于DNA芯片及其它技术的发展,已存在大规模自动化检测SNP的可能。未来有可能检测许多个体的所有的多态位点,包括一切有功能意义的多态位点,这种全基因组多态性扫描或基因型分析如果能在大群体、或至少在许多个体中进行,那么通过表型与全基因组SNP图谱的相关研究,理论上可将人类的任何表型、功能、对任何疾病的易感性加以定位。
除此以外,利用微阵列技术将来还可以同时检测某一疾病时所有相关基因的表达。在未来,一张个体的基因组结构图谱(SNP图谱)和一张个体的基因组表达图谱将能全面地描绘出个体的遗传物质及其功能状态,而归纳众多个体的这种结构和功能图谱将把疾病的发病机理研究推向一个崭新的水平。大群体中的全基因组多态位点检查由于工作量巨大,目前还难以想象,但在特定患病人群或对照人群中测定某些相关基因或候选基因的SNP,以阐明疾病发生的遗传基础则已有可能。
3.6环境因子易感基因的检出[11]在疾病发生的过程中,个体或群体对环境致病因子的易感性起着重要作用。这种易感性的遗传基础是基因组的结构差异或/和表达差异。SNPs有助于阐明这些差异。绝大多数SNPs本身虽不是易感性的原因,但在全基因组范围内比较易感和非易感人群之间的SNP图谱,则可显示易感人群基因组的结构特点,并通过关联分析或连锁不平衡分析指导寻找易感基因。当然,个体或群体的易感性并不完全由其基因型决定。在环境致病因子作用下的基因表达往往起着更重要的作用。因为即使基因型一致,基因表达还会受到甲基化、体细胞突变、X染色体的随机失活等影响。随着DNA微阵列芯片在基因表达研究中的应用,如果能够确定易感基因的关键组织或细胞,那么理论上只需有限的个体或标本就可确定环境因子对基因组表达的影响并找出易感基因。
3.7指导用药和药物设计同一药物在不同个体产生的效果不是完全相同的。这种不同是由于药物本身在不同个体体内活化、代谢、清除方面的差异所决定的,而这种差异首先是遗传差异。基因组的多态性,尤其是SNP多态性能充分地反映个体间的遗传差异。通过研究遗传多态性与个体对药物敏感性或耐受性的相关性,可以阐明遗传因素对药物效用的影响,从而对医生针对性的用药和药物的开发提供指导和依据。单个基因对药物作用的影响已有不少研究。例如,已知一些参与药物代谢的酶的基因和受体基因可以改变药物在体内的代谢和个体对药物的敏感性。
但对于常见的复杂疾病来说,了解单个基因对药物作用的影响是远远不够的,因为这些疾病的发病有众多基因和环境因素的参与,而单个基因或因素的贡献甚微,并认为一般不会超过5%。因此,有必要在整体水平上全面认识多个基因的作用,而这只有基因组水平上才有可能做到。SNP以其数量众多和易于批量检测,正好为此提供了条件。目前,正在兴起的药物基因组学(pharmacogenomics)研究遗传因素对药物作用的影响和不同基因型个体对药物反应的差异[12],从而为临床有针对性地合理用药和根据不同基因型群体对药物的反应来改进药物设计提供了理论依据。这是当前制药行业对SNPs制图和发展大量检出SNPs方法表现出空前兴趣的原因。可以理解,药物基因组学首先选择研究的对象将是与药物活化、代谢或靶分子有关的基因及其多态性,以便用最少的投入发展对不同人群或个体更加安全有效的药物和诊断试剂。
4SNP的识别和检出
作为DNA序列中单个碱基的置换,理论上任何用于检测单碱基突变或多态的技术都可用于SNPs的识别或检出,例如,RFLP、等位基因特异的寡苷酸杂交、寡核苷酸连接分析(OLA)、等位基因特异的PCR(ARMS)、DNA测序等都可分别用于已知或未知的SNPs的检测。这些方法大多需要电泳和荧光标记。当前在人类基因组中搜寻SNPs最普遍采用的策略是将已定位的序列标记点(sequencetaggedsites,STS)和表达序列标记(expressedsequencetags,ESTs)进行再测序。从事SNPs识别和制图的有美国麻省理工学院(MIT)的Whitehead基因组研究所、华盛顿大学、芝加哥大学、斯坦福大学以及Genset、Diadexus等一些大学和公司的实验室。
但无论为了大量发现新的SNPs,还是用已知SNPs作群体基因型分析,都需要同时检测大量的位点,而上述基于电泳和需标记DNA的方法则因其样本处理费时费力而效率有待提高。为此,近年来已发展了一些批量地、自动化地识别或检出SNPs的方法。如DNA微阵列分析法[13,14],即在一块小硅片上进行微阵列分析,让目标DNA与密集的多重寡核苷酸阵列进行杂交以检出SNPs的有效方法。实现这种分析的关键是能在芯片上高密度地原位合成大量不同的寡核苷酸探针,以及实现杂交后的荧光检测和计算机分析。而采用综合探针矩阵(probematrix)合成技术通过多轮的合成反应可以生成大量随机的多态DNA分子,即寡核苷酸探针,后者的数目随合成反应的次数呈指数增加。
微阵列DNA芯片在理论上可以提供足以检出任何SNP的探针,并通过杂交检出基因组中的cSNP或SNPs。目前采用DNA芯片法已从1139个STSs(其总长为279kb)中发现了279个SNPs,平均每1001bp中有1个SNP[15]。在1998年的冷泉港会议上,一些公司已声称发展了同时可检查10000个位点的芯片,并希望开发出一次评价全基因组的芯片[16]。此外,采用特殊的质谱法[17-19]和高效液相层析法也可以大规模和快速检出SNP或进行SNP的初筛。一些公司和实验室正努力发展一些大规模SNPs检测技术,以期研制成检测全基因组SNPs的芯片。已经推出一些检测诸如p53抑癌基因、艾滋病毒、乳腺癌、囊性纤维病基因已知SNPs的芯片或诊断试剂盒。但批量地、廉价地识别和检出SNPs的技术还不能认为已经成熟和处于临床普遍推广的阶段。
就整体而言,当前SNPs的研究还处于发展阶段,用芯片微阵列杂交鉴定的SNPs也仅2000个[15]。传统的基于电泳检出SNPs的方法费时费力,且不都适用于识别未知的SNPs,而芯片微列阵技术还有待进一步改进并使价格能为一般实验室或医院所承受。在应用SNPs作寻找致病等位基因的一些实验中还发现了一些问题[20],如减数分裂时的基因重组给SNPs的定位增加了困难,并影响到关联分析。另一些作者认为只凭SNPs恐难以确定致病的突变等。尽管如此,由于SNPs对于基因组学的意义及其在医学生物学各领域中的应用前景,它已成为实验室和公司争夺的对象(所谓SNPs大战)和人类基因组计划与癌瘤基因组解剖计划(CGAP)中的一个重要补充和研究热点。SNPs的研究已受到广泛的重视和强有力的支持[21],在美国国立生物技术信息中心(NCBI)也已建立了SNPs的公用数据库及SNPs的报告登记制度。我国的基因组计划已注意到这一点,并根据我国的实际情况,考虑加速发展SNPs研究及其应用的策略和重点。