本站小编为你精心准备了生物资源库的建设、开放与共享参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
传统生物资源是指自然资源的有机组成部分,包括基因、物种及生态系统3个层次。生物资源库即收藏、保存各种生物资源,为现在或将来对生物资源的深入认识、开发利用服务。最早的生物资源库是动、植物化石标本馆及博物馆,例如伦敦自然历史博物馆(NaturalHistoryMuseum)、北京自然博物馆等。首先,博物馆为科学家的研究工作提供了极大帮助,包括物种之间的亲缘关系和生物进化等理论问题,以及医药、农业、林业、渔业、矿业和石油勘探等方面的实际问题。其次,博物馆、标本馆也是公众科学活动的主要场所,在传播和普及自然科学知识方面起到了重要作用。各类博物馆、标本馆的生物样品以非活体样品为主。后来,全球范围内陆续建立了很多活体样品生物资源库,例如菌种库、种子库等。这些活体样品库一方面为相关科学研究、育种提供了宝贵资源,另一方面也是人类未雨绸缪,为避免大规模灾害时生物资源遭受毁灭性打击的必要手段。例如,斯瓦尔巴全球种子库(SvalbardGlobalSeedVault)是挪威政府为保存全世界农作物种子资源,在北冰洋斯瓦尔巴群岛建造的一个贮藏库,该种子库能够承受海啸、地震和核武器攻击。近年来,随着分子生物学和基因组学的快速发展,存储基因、蛋白质等生物分子实物样本的资源库和样品数据资料的数据库在数量上成为生物资源库的主流。这些资源库为相关学科的研究人员带来了极大便利,促进了相关研究的进展。本文重点介绍分子资源库,尤其是国内、外重要生理功能和重大疾病相关蛋白质研究公共资源库的建设现状,便于读者认识和利用这些资源。
1cDNA克隆文库
自20世纪80年代分子生物学兴起以来,cDNA克隆工作是国内、外生命科学和医学实验室的主要研究内容。近年来,大规模的文库制备及获得全序列克隆已相对容易。一些系统生物学的研究实验室,例如Snyder实验室(酵母ORF的表达克隆文库)、Vidal-Hall实验室和日本RIKEN研究所(人类cDNA克隆文库)等,以及目前已具有相当规模的cDNA克隆库;工业界以Invitrogen和Origen等公司为代表拥有各自的cDNA克隆文库,通过商业运作模式供研究者使用。随着后基因组时代的到来和各项生物技术的发展,克隆人类及模式生物基因阅读框的cDNA愈加普遍。以哈佛医学院及其附属Dana-FarberCancerInstitute的Vidal实验室领衔的人类cDNA克隆库为例,该库是目前世界上最大的人类cDNA克隆库(humanORFeome)。纵观人类cDNA克隆库建设的过程,可以发现,2004年人类ORFeome第1版本V1.1[1],包含8076个人类基因阅读框的cDNA,涵盖约7263个人类基因;2007年发表了人类ORFeome第3版本[2],包含12212个人类基因阅读框的cDNA,涵盖约10214个人类基因。根据该人类cDNA克隆库网站最近公布的数据,目前已储备有15483个人类基因阅读框的cDNA,涵盖约12794个非重叠的人类基因cDNA。通过数据分析不难发现,在收集cDNA克隆的最初3年(2004~2007年)内,非重叠的人类基因cDNA急剧增加近3000个,而在项目后期3年中,尽管项目资助强度和人员等投入空前加大,非重叠的人类基因cDNA在3年内也只增加了1580个,增幅明显放缓。这是由于容易克隆的基因都在项目早期易于获得,而后期制备的难度很大。中国科学院、军事医学科学院、中国科技大学及清华大学等高校在系统收集、制备人类cDNA及蛋白质大规模表达方面具有良好的研究基础和资源储备,分别建立了各自研究领域的全长cDNA库和cDNA亚克隆库,均以与重大疾病相关或重要生理功能相关途径中关键蛋白的cDNA为主。
2蛋白质及多肽文库
蛋白质组学研究领域主要是发现和鉴定能够用于疾病早期诊断的蛋白质生物标志物,探索疾病的发病机制、发现药物靶标、系统研究蛋白质的生物学功能等。基于蛋白质生物标志物疾病早期诊断技术,除了通过制备抗体及相关试剂盒用于临床检测外,通过合成(同位素标记)肽段,建立基于MRM精确定量技术的临床检测技术方法是目前质谱技术用于临床检测的一个趋势。因此,建立与蛋白质生物标志物及相关疾病的重要蛋白质相对应的多肽库,将会加速蛋白质组学技术和质谱技术在临床中的应用。首次由我国科学家贺福初院士领导的国际重大科研合作项目———人类肝脏蛋白质组计划,围绕人类肝脏蛋白质组的表达谱、修饰谱及其相互作用的连锁图等九大科研任务,成功测定出6788个高可信度的中国成人肝脏蛋白质,系统构建了国际上第1张人类器官蛋白质组“蓝图”;发现了包含1000余个“蛋白质-蛋白质”相互作用的网络图;建立了2000余株蛋白质抗体。
在结构基因组学方面,其研究目标主要是阐明蛋白质相互作用的分子机理及创新药物的设计与筛选。中国结构基因组计划于2000年正式启动,重点研究与人类重大疾病及重要生理功能相关的蛋白质结构与功能的关系。在遗传病致病基因,白血病、肝癌、鼻咽癌等肿瘤相关基因,造血干(祖)细胞、下丘脑-垂体-肾上腺轴系统、胎肝、心血管和神经系统等组织cDNA方面的研究成果已达国际前沿水平,共发现新基因全长cDNA1000多个,解析了200多个蛋白质的结构,为深入开展基因功能研究奠定了良好基础[3]。在禽流感、SARS等重大传染病的蛋白质结构与功能研究方面也取得了重大成果,为我国生物技术和医药产业的发展提供了强大的技术支撑。
3蛋白质抗体库
在重要生理功能和重大疾病相关蛋白质抗体库建设方面,2004年10月召开的国际人类蛋白质组学会议上,成立了由瑞典科学家Dr.Uhlen负责的人类抗体项目(humanantibodyinitiative,HAI),计划在35年内研制针对30000种人类蛋白质的抗体。美国NIH创建的developmentalstudieshybridomabank(DSHB)资源库包括专业的抗体杂交瘤细胞株库。目前我国在此方面尚无规模化、系统化、标准化制备抗体的组织。我国研究用抗体试剂90%以上仍依赖进口产品,几乎被SantaCruz、R&D、SIGMA、Roche、Beckman、Abbott等国际公司瓜分,尤其是精加工的标记抗体,如流式细胞仪用荧光抗体、时间分辨免疫分析技术的稀土元素标记抗体等高附加值抗体,几乎完全依靠进口。国内大多数抗体销售商也均以国外厂家抗体产品为主。进口抗体产品价格高、进货时间长、运输过程中易失活,难以满足我国研究机构对抗体的大量需求。
4蛋白质配体库
蛋白质配体的发现伴随着新药研发成为热点之一。蛋白质配体的发现和结构优化是药物化学的主要研究内容之一[4]。在早期的药物研究中,药物靶标的发现往往滞后于其在临床上的应用。没有靶标的药物或者说靶标不明确的药物,其作用机制或药物副作用研究会受到一定限制,在某种程度上也可能错失药物的主要作用或用途。例如阿司匹林,该药物是德国科学家费利克斯•霍夫曼(FelixHoffman,1868-1946)发现的,于1899年德莱塞介绍临床上市,最初用于治疗感冒、发热、头痛、牙痛、关节痛、风湿病等。随着分子生物学的发展,研究人员发现了其详细的作用机制,阿司匹林通过与环氧化酶(cyclooxygenase,COX)COX-1活性部位多肽链第530位丝氨酸残基的羟基发生不可逆的乙酰化,导致COX失活,继而阻断了AA转化为血栓烷A2(TXA2)的途径,抑制PLT聚集,因此阿司匹林被广泛用于预防和治疗缺血性心脏病、心绞痛、心肺梗塞、脑血栓形成,以及血管形成术和旁路移植术等[5]。随着分子生物学和结构分子生物学的发展,大量与疾病相关的蛋白质被发现,特定蛋白的分子配体被大量鉴定,如针对微管蛋白的天然分子配体就有许多,如Taxol、Vinblastine、Epothilone等[6]。收集现有的蛋白质配体分子对发现新配体有重要参考价值,同时也为发现蛋白质配体的新功能提供重要资源。构建化合物库,通过高通量虚拟筛选和实验筛选,快速发现活性化合物,是当今发现新药和蛋白质配体的重要途径[7]。
构建蛋白质及其配体信息库、资源库能够帮助化学家和生物学家在化学基因组研究和新药开发中节省精力。美国NIH及其合作者建立的公共资源信息库PDB、DrugBank和ChemBank提供了大量蛋白质及配体信息,其中PDB提供了6253个蛋白质配体信息,DrugBank提供了1492个批准的药物信息(91%的药物有1个或几个已知药物靶标信息)[8],ChemBank则是研究发现蛋白质配体的重要信息资源库[9]。在小分子配体库建设方面,美国MDL公司利用专业数据库软件ISISBASE构建了诸如ACD-3D、综合医药化学数据MDDR、美国癌症研究所化合物三维数据库NCI-3D等。在中国,较具影响力并已商业运作的数据库有中国科学院药物研究所与创腾科技公司合作开发的中国天然产物数据CNPD,该库目前共收集了57000多个天然产物。另一较具影响力且商业运作的是中国医学科学院与创腾科技合作开发的微生物天然产物数据库MNPD,该库目前共收集了15000个微生物天然产物的相关数据。但上述化合物库均为信息库,在没有相应实体库,特别是天然产物实体库的支持下,所起的作用相对有限。在实体库构建方面,国际上诸如诺华、辉瑞等知名药物公司均建立了小分子配体库与信息库,但这些均为内部资源,不对研究机构及个人开放。然而,构建何种类型的化合物库才能最大限度地满足蛋白质配体的发现与研究需求,同时满足药物发现与化学生物学研究需求,这是研究中的首要问题。同时满足药物发现和化学生物学研究,必须建立通用化合物库(general-purposelibrary)[10],而针对特定类型蛋白质寻找配体,则需要构建聚焦化合物库(focusedlibrary)。多样性导向合成(diversit-yorientedsynthesis)是以寻找新的蛋白和探索蛋白质功能为目的,利用单一化合物为原料,尽量合成骨架多样的特异性分子,这样的化合库称为预期库(prospectinglibrary)[4]。
大型制药公司长期致力于构建通用化合物库(general-purposelibrary),从事新药发现和化学生物学研究团队则更多地构建聚焦化合物库和预期库。组合化学能高效合成化合物库,组合化学技术能提供结构类似的分子,为构效关系提供省时省力的平台,但组合化学提供的化合物结构多样性不够,组合化合物库提供的化学空间没有天然产物库大。近20多年新药发现历史表明,组合化合物库并没有提高新药发现的效率。因此,天然产物及其衍生物化合物库仍是发现蛋白质配体的有效资源。Novartis长期在全球范围内收集天然产物,在化合物库构建方面积累了丰富经验,并提出了一系列在化合物收集标准、化合物保存、化合物筛选等方面的规范[11]。在构建化合物库基础上如何筛选以快速发现蛋白质配体,是配体发现的关键科学问题。在研究策略上采用2种策略结合,通过计算机虚拟筛选是首要的一步,通过蛋白质分子和小分子虚拟对接可高效获得初筛结果,这些结构可以有效指导实验筛选以避免盲目性[12]。除了计算机虚拟筛选、实验验证筛选,综合运用各种知识和工具,如类药性、成药性等知识是发现蛋白质配体和新药的捷径[13]。
5重要蛋白缺失或过表达细胞库
有关重要蛋白缺失或过表达细胞库建设。近年来,很多重要蛋白质功能性研究成果的获得,得益于一些遗传背景相同但个别基因突变的成对或系列的细胞株。这使得功能和表型方面的改变能与特定基因或蛋白快速建立连接,避免了漫无边际的搜寻。但迄今为止,多数此类的细胞模型仅在个别实验室保存和使用。国际上,2007年建立了基因敲出小鼠国际资源库(InternationalKnockoutMouseConsortium,IKMC),专门致力于在C57BL/6小鼠上进行系统性基因敲出。目前在美国德州农工大学(A&M)、加拿大和欧盟3个中心进行,并得到NIH(Grantnumber:NIHHG004074)和欧盟(Projectnumber:223592)的基金支持,这些机构均为非营利性质,但资源一般仍为有偿提供。截至2010年6月,可提供的基因敲出干细胞有3250株,相关工具载体5851种,并在持续和迅速增加中。例如加拿大的Watson教授等[14]利用S100A7蛋白表达缺失和高表达的一对乳腺癌细胞系(原位乳腺癌细胞MDA-MB-231和MDA-MB-486),发现高表达S100A7可促进乳腺癌细胞的增殖和转移。国内近年来也开展了相关工作,但其中大多采用国外建立的特异细胞模型。中国医学科学院协和肿瘤研究所詹启敏教授课题组以p53野生型及p53缺失型结肠癌细胞HCT116P53+/+和HCT116P53-/-为实验对象,研究了UV照射对这2株细胞蛋白变化的影响,分析受p53调控的信号传导通路等。
6生物信息资源库
近几十年来,随着生物信息学、基因组学、蛋白质组学等学科的快速发展,基因组和分子水平的数据信息资源以几何级数快速增长。国内、外建立了大量对生物学信息资源进行存储、整理、分类、加工的数据库。目前,最具影响力的生物信息资源数据库是GenBank,它是美国国家生物技术信息中心(NationalCenterforBiotechnologyInformation,NCBI)建立并维护的DNA序列数据库(www.ncbi.nlm.nih.gov),汇集并注释了所有公开的核酸及蛋白质序列,每个记录代表1个单独、连续并带有注释的DNA或RN段。该数据库是对全球开放共享的生物学资源数据库,得到了全球生命科学工作者的广泛认可。此外,欧洲分子生物学实验室(EMBL)、日本DNA数据库(DDBJ)也是国际核苷酸序列数据库合作成员。NIH人类遗传多样性的研究开展了哺乳动物基因收集项目(MammalianGeneCollection,MGC),由NIH的多个研究所参与,提供人和小鼠克隆全长的开放阅读框(FL-ORF),所有序列都收录在著名的基因数据库GenBank中。目前已经克隆得到了11542个人的和8855个小鼠的基因序列。鉴于生物信息资源和相应数据库的快速发展,自2004年以来,国际学术期刊《NucleicAcidsResearch》每年都出版数据库专刊,介绍国际上最新的生物信息资源数据库并说明数据库的重要更新。2009年,牛津大学出版社创立了生物信息资源的专业期刊《Database:TheJournalofBiologicalDatabasesandCuration》。
7我国生物资源库的建设现状
近10年来,我国科学工作者积极开展了例如人类基因组研究计划、黑猩猩基因组研究计划、人类基因单体型图谱研究计划及微生物基因组合源基因组研究计划等,获得了海量的科学数据,就基因组学而言,获得的相关科学数据已经高达几百万亿字节。在蛋白质科学研究领域,我国在重要生理功能和重大疾病相关蛋白质的发现、结构解析、功能研究方面已积累了一定基础,在一些领域已经领先于世界先进水平。经过多年的发展,在科技部、基金委和科学院知识创新工程等项目支持下,中国科学院、军事医学科学院、中国医学科学院及高校系统等国内科研单位的科学家,在蛋白质研究领域取得了一些国际一流水平的研究成果。以服务人类健康与疾病的生物医学基础研究和国家生物医药新兴战略产业发展为导向的国家重大项目———“重要生理功能和重大疾病相关蛋白质研究公共资源库建设”项目,以重要生理功能和重大疾病相关蛋白质功能基因库、抗体库、蛋白质配体库和重要蛋白缺失或过表达的细胞资源库建设为主要内容,通过5年的建设,公共资源库将包含约40000个功能基因,2000种拥有自主知识产权的功能蛋白抗体,10000个蛋白质配体(包含天然化合物及其衍生物)及2500个重要蛋白缺失或过表达细胞库。目前,可以通过访问网站申领资源库的部分样品,该资源库的建立将为研究重要生物体转录组学、代谢组学、蛋白质组学、结构生物学、计算生物学及各类重大疾病防治和创新药物研发提供基础资源和信息服务,将为我国蛋白质科学不断产出具有国际水准的原创性成果提供强有力的物质及服务保障,也为我国生物医药产业的发展提供实现源头创新的实物性资源基础。同时,该资源库的建立也将成为我国生命科学领域的科普资源,为生命科学研究和生物学教育与实践提供实质性的宝贵资源。在科普、讲解演示,甚至教学实验中,都希望大家能有意识地关注和采用相关资源库的内容和存品,获得事半功倍的效果。公共资源库的5年任务存量约1万个具有重要生理功能和重大疾病相关蛋白质多肽库:其中包括人类疾病相关蛋白质和重要生理功能靶标蛋白质约7500个,结核病、病毒性肝炎等传染性疾病关键蛋白质1000个左右,模式生物重要蛋白质约1500个;单克隆抗体库达2000~3000株细胞株,多克隆抗体库容达800种,1.5万个蛋白质配体与配体资源化合物库。
作者:翟永功 李雪梅 王娅 何大澄 单位:北京师范大学生命科学院 国家973项目办公室