美章网 资料文库 甲型流感病毒快速分型范文

甲型流感病毒快速分型范文

本站小编为你精心准备了甲型流感病毒快速分型参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。

甲型流感病毒快速分型

摘要:

甲型流感病毒危害动物和人类健康,其亚型多、突变率高、易发生重配,因此对其进行检测及流行毒株基因分析尤为重要。为解决传统方法进行大量甲型流感病毒序列分型和分析时存在的费工耗时、人为错误多等问题,结合实际工作需要,使用Perl语言建立了一套lunix系统下的甲型流感病毒快速分型与分析软件,并试用其对GenBank中所有宿主为鸭的甲型流感病毒进行了分析。结果显示,该软件可在较短的时间内完成大量序列的分析、分型和遗传进化研究,可用于甲型流感病毒的大规模流行病学调查分析。

关键词:

甲型流感病毒;基因分析;亚型;遗传进化

甲型流感病毒能感染多种宿主,包括家禽、猪、马、野生鸟类和人等温血动物。有关甲型流感流行的记录已超过百年[1],先后造成了1918年、1957年、1968年和2009年四次全球性流感大流行,对人类的生命健康和社会生活形成了巨大威胁。对兽医工作有重要意义的禽流感病毒也属甲型流感病毒。在我国,有多种亚型的甲型流感病毒流行,时有导致动物疫情和公共卫生事件的发生,如2013年发生的“H7N9流感事件”[2]。甲型流感病毒属于正黏病毒科、流感病毒属的单股负链RNA病毒,其基因组由8个单股负链RN段组成[3]。其粒子表面有血凝素(Hemag-glutinin,HA)和神经氨酸酶(Neuraminidase,NA)两种表面结构蛋白。根据HA和NA的抗原性差异可分为18种HA亚型(H1~H18)和11种NA亚型(N1~N11)[4-6]。不同亚型甲型流感病毒的致病性和宿主嗜性等均有较大差异。低保真RNA聚合酶会引起病毒的高突变率和重组,造成病毒分子出现多样性,使每个病毒亚型可变异为多种不同的分支[7]。通常一个碱基对的突变,也可引起病毒对宿主感染能力的改变[8]。由于其亚型多、突变率高、易发生重配,所以检测并对流行毒株进行基因分析尤为重要。通常需要使用RT-PCR方法扩增甲型流感的HA和NA基因,再通过Blast比对确定其亚型,之后再与同一亚型的其他流行毒株的序列进行遗传演化分析,然后才能确定其分支。在对大量样品进行检测和分析的流行病学调查中,需要对每个病毒的亚型进行确定,还要将同一亚型的病毒序列进行分类整理和分析,导致效率较低。而使用MEGA等windows系统下的分析软件进行序列比对,耗时过长,且需要进行大量的人工整理与比对,造成分析结果人为错误的机会较多。针对这一问题,本文结合实际工作,建立了一套lunix系统下的甲型流感病毒快速分型与分析软件,并试用其对Gen-Bank中宿主为鸭的所有甲型流感病毒进行了亚型和遗传演化分析。

1材料和方法

1.1设备与操作系统高性能计算平台为DellT630塔式服务器,具有2颗Intel(R)Xeon(R)内存264G,存储23T,操作系统版本为CentOSLinuxrelease7.1.1503(Core),由中国动物卫生与流行病学中心搭建。

1.2分析软件构建

1.2.1参考序列筛选。为快速准确进行甲型流感病毒的分型,从GenBank中严格筛选了35条甲型流感病毒序列作为参考序列,这些序列包含了甲型流感病毒的全部亚型,见表1。

1.2.2分型理论基础。为对甲型流感病毒的序列进行分型解析,将其与35条参考序列进行比对。根据比对同源性,在35条参考序列中,筛选与病毒序列亲缘关系最近的一条,若同时满足阈值标准,则该序列与此参考序列是同一基因或亚型。同时为实现大批量样本分型解析,采用并行化与自动化的方式进行数据处理,将同一基因或同一亚型基因自动整合为一个文件,自动进行序列对齐与分析。本分型软件拟通过将待分析序列(Query序列)与参考序列(Ref序列)进行BLAST(软件版本2.2.26)比对,根据比对结果中Query序列与Ref序列的同源性进行分析,选取最优的比对结果作为分型判定依据。由于BLAST采用局部比对的算法,因此,在同源比对过程中,两两序列比对结果可能会分成多个局部比对结果输出。亲缘关系较远的序列之间由于局部具有较高相似性,也会具有较高的比对分值(E-value)与同源性值(identity),并作为一个比对结果输出出来。但综合考虑比对长度因素,二者之间并不存在真正的同源关系,这会给分析造成干扰,出现假阳性结果。新开发的这款软件,能对两条序列局部的比对结果进行重新计算。首先,对原始BLAST结果进行过滤,过滤掉比对长度小于50bp,并且identity值小于50的比对(这些比对由于同源性较低,会给计算带来干扰)。然后,通过Query序列比对到Ref序列的位置信息,将两条序列的多个比对结果进行合并,计算Query序列与Ref序列的覆盖比率。

1.2.3并行化计算。一组Query序列之间是相互独立的,每条序列需独立与35条参考序列进行比对。因此,为提高计算效率,采用并行化处理和比对方式,将每条Query序列同时与参考序列进行BLAST比对计算,以期大大提高分析速度。

1.2.4系统发育树构建。在完成序列分型鉴定之后,将具有同一亚型的序列整合,进行系统发育分析。选择MEGA-CC软件(软件版本7.0.7)对同一基因或同一亚型的Query序列进行多序列比对,比对之后采用MEGA-CC对多序列比对结果进行系统发育树构建。采用并行化的处理方式,对每个基因或每个亚型的基因并行化计算。

1.2.5自动化。采用传统人工方法进行数据处理,需消耗大量时间,并且产生人为误差的几率较大。新开发的自动化的数据处理软件,在程序中加入了上文提到的并行化处理方法。该软件能够实现从数据比对、甲型流感病毒分型和整理、结果统计以及系统发育树等过程的自动化完成,只需将Query序列调入分析,即可完成所有数据的处理工作。

1.3GenBank中鸭源甲型流感病毒的序列分析利用该分析软件,从GenBank下载了25815条宿主为鸭的甲型流感病毒序列进行软件的验证工作,序列详细统计见表2。

2结果

2.1分析软件构建按照预期设想,使用Perl语言编辑11条命令或程序,采用并行处理和自动化的方式,构建完成甲型流感病毒分型与分析软件。初步测试显示其能正常运算和分析。

2.2GenBank中鸭源甲型流感病毒的序列分析使用甲型流感病毒快速分型与分析软件对25815株鸭源甲型流感病毒序列进行分型,输出结果均包含在Result文件夹中,每个基因或每个亚型基因的所有序列均整理至对应基因名称的文件中的一个文件,未比对到参考序列的基因归为no_type,统计信息可在stat文件中显示。分析结果统计见表3,与GenBank中的序列背景材料核实均符合。软件具体运行时间统计见表4。分型结束之后,选取HA_H12作为代表,使用MEGA-CC软件(软件版本7.0.7)进行多序列比对,并进行系统发育分析。多序列比对结果(部分)如图1所示,系统发育树见图2。

3讨论

本文采用Perl语言编写了甲型流感病毒快速分型与分析软件,能够用于大量甲型流感病毒基因的分析,目前国内外均未见开发类似软件的报道。在整个数据分析过程中,需完成Query序列与Ref序列BLAST比对、比对结果过滤、计算Query(coverage)与Ref(coverage)、分型、结果统计、同一亚型多序列比对,以及构建系统发育树等过程。由于使用了高性能计算机分析平台,并且采用并行化处理方式,因此该软件不受Query序列条数限制,可以同时计算数十万个样品的快速分型。在对未知样品测序序列进行分型过程中,需要将Query序列与已知参考序列进行同源比对,根据比对相似性进行结果判断,进而对未知样品进行分型鉴定。因此参考序列的选择对于分型结果有很大的影响。如果参考序列中不存在该亚型,就无法进行分型鉴定。这里我们选择每一亚型中已发表的具有代表性的序列作为参考序列,减少了参考序列带来的误差。从软件分析结果来看,在分析GenBank中鸭感染的甲型流感病毒序列时,有34条序列未得到分析结果。分析其原因,可能由于序列长度过短(34条序列的长度为54~485bp),其长度均小于对应基因参考序列长度的50%。根据比对长度对BLAST结果进行过滤时,会将比对长度过短的序列过滤掉,导致这些序列无法进行分型和分析。

但这种序列在实际应用中属极少数,不会对软件的分析功能造成影响。与GenBank下载数据的分型和分析,结果显示,该软件可以快速、准确对甲型流感病毒进行分型、分析和遗传进化研究,并且不具备较深生物信息学和病原学基础的操作人员也可进行操作,所以该软件能够满足各类动物疫病预防控制机构和研究院所开展流感病毒的流行病学调查和遗传变异研究,可以提高我国甲型流感的分析和应急能力。

作者:王楷宬 王通 庄青叶 邱源 彭程 王素春 陈继明 单位:中国动物卫生与流行病学中心

精品推荐