容错技术论文范文15篇

前言：我们精心挑选了数篇优质容错技术论文文章，供您阅读参考。期待这些文章能为您带来启发，助您在写作的道路上更上一层楼。

容错技术论文

第1篇

当系统内部有故障存在时，通过容错技术消除故障的影响，使系统最终仍能给出正确的结果。按照时间划分，故障可分为以下三种：永久性故障、间歇性故障和偶然性故障。永久故障是永远持续下去直至修复为止的故障。对硬件来说，永久性故障意味着不可逆的物理变异。对软件来说，这类故障也就是一个不可以自动恢复的错误状态。间歇性故障是短暂的，但却是断续的，它既有偶然性，又有不定期的重复性。如一个处于临界状态的电路输出时好时坏，而一个虚焊点就会引起这样的故障。偶然性故障出现是短暂的，且可能是非重复性的。常常由于环境的变换、电源方面的干扰、元器件性能的波动、软件的随机变换、电磁干扰等因素而引起。这样的故障有可能仅出现一次，或很长时间出现一次，但却可能造成数据错误，甚至系统瘫痪。

针对不同故障应采取不同的容错方法。容错技术能自动适时地检测并诊断出系统的故障，然后采取对故障的控制或处理的对策略。按照系统的失效响应阶段，可以把各种容错技术分成三种：故障检查、静态冗余、动态冗余。故障检测并不提供对故障的容忍，而是发生故障时给出一个警告。故障检测广泛应用于微型机和小型机之类的小系统中，其中一些已体现了简单的联机检测机理。严格地说，故障检测不是容错，它尽管检测了故障，但是不能容忍这些故障，不给出故障警告。动态冗余用于纠错码存储器或具有固定配置(即线路器件之间的逻辑连接保持不变)的多数表决冗余计算机之类的系统中。

根据不同情况，一个容错系统可经历以下阶段：(1)故障检测：大多数失效最终导致产生逻辑故障。有许多方法可用来检测逻辑故障，如奇偶校验、一致性校验和协议违章都可以用来检测故障。故障检测技术有两个主要的类别，即脱机检测和联机检测，在脱机检测情况下，进行检测时设备不能进行有用的工作；联机检测提供了实时检测能力，因为联机检测与有用的工作同时执行。联机检测技术包括奇偶校验和冗余校验；(2)故障限制：当故障出现时，希望限制其影响范围。故障限制是把故障效应的传播限制到一个区域内，从而防止污染其他区域；(3)故障屏蔽：故障屏蔽技术把失效效应掩盖了起来，从某种意义上说，是冗余信息战胜了错误信息，多数表决冗余设计就属于故障屏蔽；(4)重试：在许多场合，对一个操作系统的第二次试验可能是成功的，对不引起物理破坏的瞬间故障尤其如此；(5)诊断：对故障检测技术没有提供有关故障位置、性质的信息进行诊断；(6)重组：当检测出一个故障并判明是永久性故障时，重组系统的器件替换失效的器件或把失效的器件与系统的其他部分隔离开来，也可使用冗余系统，确保系统能力不降低；(7)恢复：经检测和重组后，必须消除错误效应。通常，系统会回到故障检测前处理过程的某一点，并从这一点重新开始操作。这种恢复形式通常要后备文件、校验点和应用记录方法；(8)重启动：如果一个错误破坏的信息太多，或者系统没有设计恢复功能，那么恢复就不可能实现。仅当系统未受任何破坏时，才能进行“热”重启，并从故障检测点恢复所有的操作。“热”重启相当于系统需要完全重新加载；(9)修复：即把诊断为故障的器件还原下来，修复也可以是联机进行的或者脱机进行的；(10)重构：对元件进行物理替换之后，把修复的模块重新加入到该系统中去。对联机修复来说，实现重构不中断系统的工作。

随着计算机硬件和网路的快速发展，容错计算机的系统开销逐渐降低，且纠错速度快。而软件方法实现的容错，对硬件不会提过高的要求。同时系统灵活，资源利用比较合理。更正检测、诊断将会采取人工智能的处理途径，以专家系统的各种智能工具来支持故障检测和诊断。利用专家的知识，借助推理机构，迅速而准确地提供诊断结果。系统的动态重构、故障恢复功能及神经元芯片等将被用到容错技术中来，都将在智能化的支持下得以实现。同时对电路内部的自检、自重构研究，可以解决电路本身及子系统的可靠性问题，将会出现容错的VLS1芯片及可直接支持系统容错设计的可容错设计芯片，为系统设计者提供一个具有透明性的容错设计元器件。进入到芯片内部的容错技术的研究将成为容错研究的一大分支。

随着网路时代的到来，对于一个成功的电子商务系统来说，必须响应在线客户的需求并遵守服务的那个协议(SLA)，同时保护客户的隐私及电子商务系统安全正常运营。对于客户要求的响应程度及安全保护措施是一个基于Internet的电子商务系统成功的必要条件，容错服务器就成为网络时代电子商务运营商首要选择。未来的智能化家庭都将拥有一个家庭数据中心，可提供全天候的服务，包括家庭安全、防盗和防煤气泄漏以及各种家用电器的控制，这个家庭数据中心也只有采用容错计算机才能担当。今后容错技术将同时在软件和硬件上得到发展，将会出现初级的容错软件的设计方法，应用软件方面的容错设计将会产生一些实用的工具，同时产生一个通用操作系统和硬件相结合的容错方法，走软硬结合的道路。系统容错设计将在分布式系统、CSCW等方面出现新的容错设计方法。

[摘要]随着计算机技术的发展，容错技术和容错计算机将成为新的研究发展方向。本文介绍了容错技术的基本原理及内容，介绍了容错系统的经历阶段和实现容错功能的关键技术，总结了计算机容错技术的现阶段的应用情况。

[关键词]容错技术可靠性容错功能

参考文献：

[1]胡谋.计算机容错技术[M].北京：中国铁道出版社.

[2]杨孝宗.容错计算技术的提出和发展[J].电子和信息化.

第2篇

关键词：3G视频通信H.264/AVC容错技术

传统的视频编码标准都是围绕比特流的概念组织的。实际上用于传送数字视频的大多数网络体系结构并不适合直接传输比特流。在许多网络体系结构中，比特流需要拆分为数据分组。这些分组的特性，如最小/最大尺寸、相关开销和差错属性等在网络体系结构间、甚至在某个给定的网络体系结构内也是很不相同的。假如视频编码器自身能和网络特性很好的匹配，将能够获得更好的视频QoS。问题是如何容错地支持易差错的无线移动网络？为了解决无线移动信道视频的容错传输，我们将采用如前向纠错编码及支持差错复原的视频压缩编码技术来解决。H.264编解码器可以很好的解决易差错信道的视频容错传输。在3GPP/3GPP2的传输环境下通过选择适当的条带长度使H.264编解码器和无线移动信道的网络特性得到很好的匹配，实现无线移动信道视频的容错传输。H.264标准适用于无线网络传输的主要原因之一就是在概念上分为两层:视频编码层VCL(VideoCodingLayer)和网络抽象层NAL(NetworkAbstractionLayer)，其中VCL负责高效的视频内容表示，它被设计成尽可能独立的网络，NAL负责对编码信息进行打包封装并通过指定网络进行传输。H.264中还定义了两种新的帧编码类型，即SP帧和SI帧来完成不同流的切换，可以根据传输网络和用户终端的具体情况自适应地在不同码率的视频流之间切换，这大大改善了视频流对3G网络的适应性。

一、3G视频通信中容错技术的应用

3G通信技术的出现使对话式无线视频业务成为可能，虽然3G网络在移动环境下的带宽可达384kbps，在静止环境下的带宽可以达到2Mbps，但是由于信道衰减、建筑物遮挡、终端移动、多用户干涉等原因影响，使得信道是时变且高误码的，因此，在3G网络上传输视频流时，仅仅追求高的压缩效率是不够的，必须有一定的容错和错误掩盖措施。最新的3GPP/3GPP2标准要求3G终端支持H.264/AVC视频编解码技术，同时由于硬件的限制，3G终端只支持部分H.264/AVC的容错工具。H.264中虽然提供了一些容错工具，但是它们有各自不同的用途和目的，即在不同的场合需要选择不同的组合来使用。

1.1错误隐藏技术由于错误隐藏技术能够利用接收到的数据来恢复丢失的数据，因此一般都应用在解码器端。在无线网络环境中，解码器的这种能力尤其重要，因为无线网络环境中误码率高，很多RTP包在传输中被网关或者路由器丢弃，而这些丢失的数据又必须在解码器端根据空间和时间上的相关性来恢复。错误隐藏技术的实现方法也很多，在JVT参考软件中，就使用了一种空间相关性的方法，即使用被丢失宏块周围的4个宏块来恢复被丢失的数据，其选用的标准是使恢复后边缘数据的SAD(sumofabsolutedifference)差最小。这种方法的效果虽不是最好，但是计算简单有效。

1.22Slice结构为了满足MTU大小的要求，在3G网络视频传输中对视频进行分片压缩显得尤其重要。经过分片压缩后的视频中每个RTP包中包含一个片，一般每个slice中包含一个或者几个宏块，并以RTP包的大小满足MTU的要求为准。

1.3帧内编码块刷新由于帧内编码不依赖时间上相邻帧的数据，所以帧内编码块能有效地阻止由于包丢失甚至帧丢失而引起的错误传播。对于对话式视频业务来说，由于实时性要求高，而且I帧刷新的频率较低，因此可以用帧内编码块来部分代替I帧的作用。H.264／AVC提供了两种帧内编码块刷新(intrablockrefreshing)模式；其中，一种是随机模式，即用户可以选择帧内编码块的数目，而由编码器随机决定哪些哪些位置上的宏块实行帧内编码；另一种是行刷新模式，即编码器在图像中依次选择一行进行帧内编码，但图像分辨率大小不同，每次需要帧内编码块的数目也不同，例如在QCIF格式图像中，每次需要选择一行，即11个宏块进行帧内编码，而在CIF格式图像中，这个数字变成22。

1.4参数集(ParameterSets)H.264标准中，取消了序列层和图像层，将原本属于序列和图像头部的大部分句法元素分离出来形成序列参数集SPS(SequenceParameterSet)和图像参数集PPS(PictureParame2terSet)。序列参数集包括了与一个图像序列有关的所有信息，如编码所用的档次和级别、图像大小等，应用于视频序列。图像参数集包含了属于一个图像的所有片的信息，如嫡编码方法、FMO，宏块到片组的映射方式等，应用视频序列中的一个或多个独立的图像。多个不同序列参数集和图像参数集被解码器正确接收后，被存储于不同的己编码位置，解码器依据每个己编码片的片头的存储位置选择合适的图像参数集来使用。

1.5冗余片(RedundantSlice)H.264编码器除了对片内的宏块进行一次编码外，还可以采用不同的编码参数对同一个宏块进行一次或多次编码，生成冗余片，冗余片的信息也被编码进同一个视频流中。解码器在能够使用主片的情况下会抛弃冗余片，反之如果主片丢失，也可以通过冗余片来重构质量。

1.6灵活的宏块排序(FMO)FMO技术通过片组(slicegroup)技术来实现。片组是由一个或者多个片组成，而每个片中通常包括一系列的宏块。采用FMO进行视频编码的好处在于，可以使因信道传输而引起的错误分散。具体实施方法是:帧图中的宏块可以组成一个或几个片组，每一个片组单独传输，当一个片组发生丢失时，可以利用与之临近的已经正确接收到的另一片组中的宏块进行有效的错误掩盖。片组组成方式可以是矩形方式或有规则的分散方式(例如，棋盘状)，也可以是完全随机的分散方式。采用FMO提高了码流的容错能力，却使编码效率有所降低，同时也会增加编码延迟时间。

二、结论

通信技术的飞速发展，第三代数字无线移动通信网络以及多媒体信息服务(MMS)的兴起为无线移动环境下的多媒体通信业务(特别是视频)提供了应用和发展的需求．多媒体业务是3G的基本业务之一，然而视频通信业务对3G网络还是一种挑战，这是由于无线网络是一种易错网络，容易受到多径干扰、阴影衰落等多种条件的影响，致使视频传输流中的RTP包会大量丢失，因此对于3G无线网络中的视频通信业务，容错技术是不容忽视的。H.264／AVC视频编码标准本身提供了许多容错工具，可以很好的解决易差错信道的视频容错传输，提高3G视频通信的可用性。

参考文献：

[1]潘全卫.DHCP服务器容错方案[J].网管员世界.2009.(5):55-56.

第3篇

关键词：3G视频通信H.264/AVC容错技术

传统的视频编码标准都是围绕比特流的概念组织的。实际上用于传送数字视频的大多数网络体系结构并不适合直接传输比特流。在许多网络体系结构中，比特流需要拆分为数据分组。这些分组的特性，如最小/最大尺寸、相关开销和差错属性等在网络体系结构间、甚至在某个给定的网络体系结构内也是很不相同的。假如视频编码器自身能和网络特性很好的匹配，将能够获得更好的视频QoS。问题是如何容错地支持易差错的无线移动网络？为了解决无线移动信道视频的容错传输，我们将采用如前向纠错编码及支持差错复原的视频压缩编码技术来解决。H.264编解码器可以很好的解决易差错信道的视频容错传输。在3GPP/3GPP2的传输环境下通过选择适当的条带长度使H.264编解码器和无线移动信道的网络特性得到很好的匹配，实现无线移动信道视频的容错传输。H.264标准适用于无线网络传输的主要原因之一就是在概念上分为两层：视频编码层VCL(VideoCodingLayer)和网络抽象层NAL(NetworkAbstractionLayer)，其中VCL负责高效的视频内容表示，它被设计成尽可能独立的网络，NAL负责对编码信息进行打包封装并通过指定网络进行传输。H.264中还定义了两种新的帧编码类型，即SP帧和SI帧来完成不同流的切换，可以根据传输网络和用户终端的具体情况自适应地在不同码率的视频流之间切换，这大大改善了视频流对3G网络的适应性。

一、3G视频通信中容错技术的应用

1.6灵活的宏块排序(FMO)FMO技术通过片组(slicegroup)技术来实现。片组是由一个或者多个片组成，而每个片中通常包括一系列的宏块。采用FMO进行视频编码的好处在于，可以使因信道传输而引起的错误分散。具体实施方法是：帧图中的宏块可以组成一个或几个片组，每一个片组单独传输，当一个片组发生丢失时，可以利用与之临近的已经正确接收到的另一片组中的宏块进行有效的错误掩盖。片组组成方式可以是矩形方式或有规则的分散方式(例如，棋盘状)，也可以是完全随机的分散方式。采用FMO提高了码流的容错能力，却使编码效率有所降低，同时也会增加编码延迟时间。

二、结论

参考文献：

[1]潘全卫.DHCP服务器容错方案[J].网管员世界.2009.(5)：55-56.

第4篇

一、基于微信公众号创业的优点

高达6亿用户群体的微信平台，对传统营销行业带来颠覆性的影响。相比其他宣传渠道，微信公众号创业具有以下优势。（1）传播有效性高。不同于博客、微博等社交平台，微信是从熟人朋友中发展起来的社交平台，其最初的传播模式是一种熟人传播。这样一种基于信任的小众传播发展起来的用户群，具有极高的信赖度和有效性，是传统媒介无法做到的。2016年，微信进入2􀆰0时代，微信社交关系从熟人社交逐渐演变为半熟人社交，通过微信这一平成“六度人脉”销售网络的建设不再是天方夜谭，而是实实在在每天都在发生的事实。［1］一对多的公众号传播模式，直接将消息推送到手机，达到率和被观看率几乎是100％。（2）便捷的商家用户沟通渠道。微信公众号的推送与用户留言这一功能，让商家可以随时随地提供信息和服务，根据用户需求调整销售模式。微信公众号的推出开放了微信对外接口，实现了第三方平台的接入，让微信公众号营运者可以根据需要设置实现了微信会员卡、微信商城、微信团购等营销功能。同时商家可以通过大数据分析，了解用户活跃度、用户消费特点，调整销售策略，贴近用户需求。［2］（3）成本低门槛容错率高。微信创业最大的特点在于其“草根性”。申请微信公众号手续非常简单———有效身份证件与一个未绑定微信的电子邮箱，任何怀揣创业梦想的人都能在这一平台上开设自己的公众号。早期公众号的运营，几乎不需要创业者的资金成本，这样几乎“无门槛”的准入形式和低成本的运营模式，容错率极高，非常适合早期创业的大学生团队。

二、基于微信公众号的大学生创业实践探索

（1）做好公众平台的精准定位。大学生微信公众号创业，首先做好平台的精准定位。公众号是准备面向本校“精耕细”做好推广工作，还是面向整个大学生群体实施“广撒网”策略，都值得创业者认真思量。公众号的名称和头像要符合自己的微信定位，能够直接体现定位，简介一定要清晰明了，同时能够吸引粉丝关注。公众号的推送内容一定要突出自己的优势，才能在众多的公众号推送中脱颖而出。（2）公众号服务内容贴近大学生生活。丰富多彩的咨询、实用便捷的服务是吸引大学生关注的最好方法。大学生创业公众号若能抓住学生的需求提供服务，将极大提高创业成功率。大学生创业者可以立足在校生群体需求，通过便捷的网络服务，提供订餐、购物、查询等功能，满足用户群体需求。最常见的大学生微信平台服务功能有：校内便捷服务（校内失物招领、课表查询、校内通知等）、公交线路查询等服务。［3］以笔者所在高校为例，五个大三学生敏锐抓住学校毕业生论文修改苦不堪言，毕业生论文打印供不应求的市场需求，创建毕业生论文服务公众号，面向本校毕业生提供论文格式修改工作和论文打印工作，因其紧贴学生需求、价格低廉、送货上门等服务，通过微信裂变式传播，让这小小的创业团队在2017年毕业季挣到创业的第一桶金。（3）做好线上线下推广工作。首先做好线上推广工作。除了利用朋友圈熟人链接推广外，还可以通过学校相关网站、贴吧、论坛等发帖推广，班级QQ群也是一个很好的推广方式。除了线上推广工作外，线下活动推广的效果也不可小觑。例如与校园社团合作，帮忙校内社团招募通知、社团勤工助学宣传、社团活动推广等，做到社团推广与公众号推广双赢。线下推广活动还可以考虑通过有奖活动的方式，例如扫码抽水果，关注就送棒棒糖等方式，促使学生参与活动提高公众号的粉丝数。（4）微信平台与等级培训挂钩。大学生对各类技术等级证书培训的需求也是一个巨大的市场。大学生创业团队若能与校外优质培训机构合作，为学生提供实用的培训考试攻略，为培训机构提供广告推广业务，将是一条营销新途径。

三、结语

大学生对微信的使用度与依赖度极大，大学生微信公众号创业具有天然的受众优势，加之微信公众号创业起点低，商家用户互动较好，利用熟人和半熟人社交圈传播的有效度较高等特点，做好大学生微信公众号创业，推动大学生创业工作，具有重要意义。

作者:缪经纬张永单位:无锡科技职业学院

参考文献：

［1］石明翰．基于校园微信公众平台的大学生创业实践［J］．科教导刊，2015（10）：170－171．

第5篇

一、工资管理系统的目的和意义

在中原大化仪表公司是一家省属大型企业分支单位,随着社会主义市场经济的快速发展,该公司下在发生着日益的变化,职工流动速度在加快,工资增减幅度在加大,员工,职称,绩效评定等信息也随之越来越多 ,作为工资管理和发放单靠传统的手工处理已显得力不从心,手工发放需要反复进行抄写,计算,不仅浪费时间,还常因抄写不慎出现张冠李戴,或者由于计算疏忽,出现工资发放错误的现象.同时工资的发放具有较强的时间限制,必须严格按照公司规定的时间完成任务.正是这种重复性,规律性,时间性,使得工资管理的计算机化成为可能.

使用计算机进行工资发放,不仅能够保障工资核算无误,快速输出,而且还可以利用工资数据库对有关的各种信息进行统计,服务于上级财务部门的核算与账务处理.从而提高工资管理发放的效率,实现企业员工工资管理的系统化,规范化和自动化.

二、计所达到的要求,技术指标,预计的技术关键,技术方案和主要实验研究情况

1、预计达到的要求:

此系统要求做到设计合理,便于使用,易于操作;界面友好,容错性高,可在很短的时间内,查找出所需的职工工资资料,提高工作效率.

2、技术指标

(1)开发环境:visual foxpro6.0

(2)运行环境:windows9x/windowsxx

3、技术关键:

采用foxpro编程思想,利用其强大而完整的功能开发这样一套职工工资管理软件,其主要技术有:foxpro数据库技术,新类的设计与应用,系统容错性的处理,组合查询技术的实现等.

4、技术方案和主要实验研究情况:

(1)开发职工工资管理系统

(2)职工工资管理系统的数据库结构设计与实现

(3)职工工资管理系统的具体实现

三、课题研究进展计划:

9月28号:毕业设计选题

10月10号:开题报告撰写

10月19号:对开题报告进行改进

10月29号:对系统整体设计

11月15号:中期报告

12月21号:论文撰写

12月28号:系统检查

1月4号: 论文答辩

四、现有在条件,人员(姓名,职称)及主要设备情况

已有软件:microsoft visual foxpro 6.0,winxx平台

设计人员:樊利清

主要设备:计算机(intel pentium 4)一台,激光打印机一台

五、参考文献

(1)开发使用手册人民邮电出版社

(2)数据库系统概论高等教育出版社

(3)个人电脑实用基础教程宁杭出版社

(4)数据库系统及应用基础北方交通大学出版社

(5)数据结构中央广播电视大学出版社

(6)操作系统工程中央广播电视大学出版社

第6篇

关键词：计算机网络；可靠性；原则

1计算机网络可靠性内涵

计算机网络可靠性的定义是：在指定的时间和条件下，计算机网络能够保持连接通畅，并且不会出现异常的性能。换句话说就是在计算机执行某一功能内容时，计算机网络可以保证和提供能够满足正常需求的网络吞吐量。计算机网络的可靠性和日常的生产和生活有着无法避免的联系，关系着国家的经济安全和稳定，牵连到所有计算机网络使用者的利益。计算机网络的可靠性如此重要，所有相关从事人员都应对其给予高度重视，并且就其不断提出改进的方法和意见。

2计算机网络的可靠性设计准则

在设计实践的的过程中，不断总结经验和教训，让其变得更加科学、条理、系统，是计算机网络可靠性设计的准则，并且这项准则是我们设计过程中所必须遵循的。计算机网络可靠性设计准则主要包括：

2.1冗余设计原则

通常来说我们有两种方法来提高计算机网络的可靠性：一是余度设计，二是容错技术。细说就是网络中的各个计算机单元可以成为彼此的备用机，当其中某一个计算机单元出现问题时，正常的计算机单元就会自动替生问题的计算机单元，这样就使计算机网络不会因为其中一个单元的问题导致整个系统的瘫痪，保证了计算机网络的可靠性

2.2先进性和继承性

合理地采用新技术是计算机网络可靠性的重要保证。新技术的使用：不仅要考量主干网络的技术发展，合理地采用适用的技术和先进的设备，让我们所设计的计算机网络能够满足未来网络技术发展的需要，并能够在很长一段时间内保证技术的领先；还要令采用的新技术有良好的继承性，能够保持对未来更先进技术设备的兼容性和可扩展性，从而帮助计算机网络实现更加平滑的更新换代。

2.3经济性

考虑到计算机网络整个生命周期的运行和维护费用，我们应该尽量减少网络系统铺设的成本，在最优成本条件下最高效率的完成其设计功能，即从软件和硬件两方面入手，选用更具有性价比的技术和设备，将搭建网络的成本降到最低，这才是保证计算机网络可靠性的最优方案。

2.4成熟性

在现有的技术条件下，为了提高计算机网络的可靠性，我们还应该选用质优、价廉、且具有良好口碑的技术设备。所提供的产品和单元也应该能够符合最新和最高的国内外行业标准，从而保证所设计网络的使用可靠性。

3提升计算机网络可靠性的方法

在遵循上述原则的基础上，为提升计算机网络可靠性，应采取以下设计和维护原则：

3.1采用容错设计方案

计算机网络可靠性要求在指定的时间和条件下，计算机网络能够保持连接通畅，并且不会出现异常的性能。为了达到这一目的，在计算机网络设计阶段需要确保系统的容错能力，对此，可将计算机网络系统的线路按照平行线进行设计，通过计算的设计允许所述用户终端在两个点上连接，这样一来主要网络的冗余问题就得到了解决。这使得计算机网络成为一个双相连接的网络，提升了计算机网络的容错能力和故障处理性能，能够有效避免系统瘫痪和故障后恢复缓慢的问题。但与此同时，容错设计方案下，系统发现故障、找出故障点和排除故障的速度有限，因此在计算机网络可靠性要求极高的情况下，仅采用容错设计是不充分的。

3.2采用双网络结构

采用上网络结构，可通过备用网络计算原网络的冗余，这样一来原网络一旦出现故障，造成网路不能正常运行时，备用网络就可代替原网络处理相关数据，以保证故障发生后网路系统的功能不受到影响，使得相应的业务得以正常开展。采用这种网络结构，能够大大提升系统识别故障、定位故障点和排除故障的效率。但相对于传统的容错设计而言，双网络结构需要投入更高的成本，因此实际设计工作中应结合计算机网络使用单位的经济能力和现有网络基础合理选择故障排除方案。

3.3采用分散网络结构

随着计算机网络技术的快速发展，为了满足广大用户的需求，分散网路结构营运而生。这种网络结构不但很好地取代了集中式网络结构的功能，同时也使得计算机网络的内部扩展可行性更高，为计算机网络的改造和更新提供了便利。因此，考虑到今后的可靠性提升和局部改造需求，在今后的计算机网络设计中，应尽量采用分散网络结构，避免采用传统的集中式网络结构。

3.4确保经济技术可行性

考虑到计算机网络运行的技术性与经济性，在实际设计中应结合使用者的条件与需求能合理控制整个运行周期的成本。除了要考虑当下搭建或改造计算机网络的成本，还要考虑该计算机网络的使用年限，维护成本以及未来的改造成本等等，在确保技术先进、可行，功能可靠的基础上，优先选择那些成本相对低廉、资金使用效率相对较高的设计或改造方案。

4总结

随着我国计算机设备和技术的迅速普及，计算机网络逐渐向着大规模、高异构的方向发展，在此发展趋势下，计算机网络的可靠性显得极为重要。对此，计算机网络设计者、管理者，应在充分了解计算机网络可靠性内涵和必要性的基础上，从以往的设计与运行案例中总结高可靠性设计准则，并以此指导计算机网络的设计，以提升计算机网络的抗干扰、容错和故障恢复能力，以全面提升计算网络的可靠性。

参考文献

[1]曹吉龙.计算机网络的可靠性优化[J].电子世界.2012(5):120-121.

[2]魏昭.计算机网络防御策略求精关键技术研究[D].北京航空航天大学博士学位论文，2014.

第7篇

关键词：LNG ESD 保护方案

一、概述

LNG（Liquefied Natural Gas），即液化天然气的英文缩写。天然气是在气田中自然开采出来的可燃气体，主要成分由甲烷组成。LNG是通过在常压下气态的天然气冷却至-162℃，使之凝结成液体。天然气液化后可以大大节约储运空间，而且具有热值大、性能高等特点。LNG是一种清洁、高效的能源。由于进口LNG有助于能源消费国实现能源供应多元化、保障能源安全，而出口LNG有助于天然气生产国有效开发天然气资源、增加外汇收入、促进国民经济发展，因而LNG贸易正成为全球能源市场的新热点。迄今为止，在天然气液化领域中成熟的液化工艺主要有以下三种：阶式制冷循环工艺、混合制冷循环工艺和膨胀机制冷循环工艺。本装置采用带预冷的氮膨胀制冷天然气液化流程，包括原料气预处理、脱碳、脱硫脱汞、脱水、冷箱、制冷压缩机、氮压机、预冷系统、制氮系统、导热油炉等工艺单元。

本论文主要针对ESD技术在LNG装置中的应用做简单的论述。

二、ESD技术的简介

ESD紧急停车系统是对石油化工中的生产装置可能发生的危险或不采取措施将继续恶化的状态进行响应和保护，使生产装置进入一个预定义的安全停车工况，从而使危险降低到可以接受的最低程度，以保证人员、设备、生产和装置或工厂周边社区的安全。当生产装置出现异常情况时，安全联锁装置能继续运行，但自动转入另一种运行模式。

三、ESD技术在本装置中的应用

在装置发生紧急状况时ESD 紧急停车系统开启，用于隔离和关断LNG或其它设备，并关闭那些如果继续运行可能维持或增加灾情、危险性的设备。以确保装置的人员安全、设备安全、环境安全，ESD系统的安全性和整体性符合以下原则：

单个组件故障不给整个系统造成损失。

单个组件故障不给整个系统造成直接风险或系统跳闸。

单个组件故障不造成整个系统完全瘫痪。

LNG装置属易燃易爆、高危险、连续生产的重要化工装置，必须配置先进的、高可靠的设备，ESD 系统采用冗余容错自诊断技术，整个系统及部件是故障安全型，ESD系统采用先进的、可靠的软件及硬件，保证工厂及装置有效、可靠的运行，防止发生人员伤害、环境污染以及经济损失，ESD系统符合IEC61508 SIL3、DIN V19250 TUV AK6 标准，ESD 系统及各类卡件、系统软件的安全等级取得IEC61508 SIL3或TUV AK6 级认证，ESD 系统控制器（CPU）、I/O设备和网络通讯部件应为二重冗余、容错或三重冗余结构。

本装置中LNG工厂紧急停车系统（以下简称ESD）的设计和制造遵循了IEC61508/61511，设计上采用西门子PLC完成对全装置的紧急停车安全联锁。控制器采用三重化（TMR）及以上技术进行冗余配置，不得采用备用形式，制造商应采用主流系统，不得采用扩展性能差的小系统。ESD系统设计满足SIL3的安全等级要求，并有TUV认证。某一冗余部件或冗余套件失效的情况，或者在单CPU运行的情况下，仍能满足SIL3的安全等级要求，并有TUV认证。采用TUV认证的冗余和容错的通讯系统，控制器与I/O卡件之间通讯1：1冗余。I/O卡件满足SIL3安全级别且1：1冗余，I/O卡件带电磁隔离或光电隔离且通道间相互隔离，所有I/O卡件均能带电插拔，而不影响系统的正常运行。本项目中控制单元与I/O卡件安装在同一机柜内，电缆从机柜下部引入，经柜内电缆槽板敷设。ESD系统设置了冗余的RS485 MODBUS通讯接口。本系统有顺序事件记录功能和过程历史报告，报警及停机事件的记录有毫秒级的时间标记，并按事件发生时间记录。本系统接受2路UPS电源供电。系统遵循故障安全型设计原则，在出现停电等严重事故时，能够保证生产设备和过程的安全。

四、ESD系统在本装置中的主要联锁保护方案

1.LNG 装置天然气门站入口切断阀、LNG 装置入口切断阀联锁切断，用于切断门站及LNG 装置原料气。

2.LNG 储罐入口及出口阀联锁切断，LNG 储罐出口装车泵联锁停泵。

3.BOG 压缩机安全联锁停机。

4.空压机、空气预冷机组安全联锁停机。

5.冷箱出口阀联锁切断。

6.原料气压缩机安全联锁停机。

触发以上联锁及停车的条件有以下几点：

①LNG 储罐液位高高报警。

②人工确认工厂有火警发生或发生火灾。

③人工确认工厂有可燃气体大量泄漏（一般性可燃气体检测器检测的气体泄漏经报警工作站报警，采取人工措施处理）。

④原料气压缩机同时停机。

⑤循环氮气压缩机同时停机。

本项目共设置1面ESD机柜，1个工程师站（操作站），通过冗余的通讯方式接在各控制器的通讯接口上，用于控制器的组态、除错、修改、测试、软件装载及维护等。工程师站（操作站）具备打印组态数据和图形的能力，具有顺序事件记录功能。配置一个辅助操作台，设置报警灯屏及相应的操作开关和按钮。

五、结论

以上内容是我对采用带预冷氮膨胀制冷液化流程的LNG工厂的紧急停车系统ESD的设计方案，希望能为进行相关设计的工程人员以及设计方案提供有益的帮助。

参考文献

第8篇

随着21世纪互联网与电子商务的飞速发展，网络会计慢慢兴起，并逐渐得到推广和应用。会计网络化是采用现代信息技术，对传统的会计模型进行重整，在重整的现代会计基础上，建立信息技术与会计学科高度融合的，充分开放的现代会计信息系统。会计网络化是会计发展的必然趋势，是会计核算顺应信息化发展对传统会计进行变革的必然结果，而且是企业生存发展的迫切要求。会计网络化不仅能够促进企业重新考虑自己的信息化战略，还能提高企业各层管理人员信息化素养和会计知识管理的水平，并且为企业构建信息化管理平台提供参考，提高对竞争环境的快速反应的能力。在可预见的未来，会计网络化是会计发展的必然趋势。会计网络化对它所处社会的经济发展有很大的促进作用。

本文通过分析网络会计的特点及优势，阐述了网络会计的意义，重点分析了网络会计发展中存在的问题及解决对策，对网络会计前景的展望做了一些探讨。

二、毕业设计（论文）结构的初步设计和进度计划：

论文的初步设计：

一、网络会计的概述

二、我国网络会计发展的特点及优势

（一）核算的充分性和信息的无纸性（二）信息处理、披露和使用的及时性

（三）会计信息的获取更具针对性

三、网络会计在发展中面临的问题

（一）信息在传递中存在问题 1。会计信息的真实性、可靠性

2。财务机密的保密性 3。会计信息是否被篡改

（二）计算机系统的安全性存在隐患

1。计算机硬件的安全性 2。网络系统的安全性

（三）对会计软件的新要求

1。对会计软件开发的要求 2。会计软件运行环境的要求

四、应对网络会计问题的对策

（一）加快立法工作（二）健全内部控制第一，建立会计电算化岗位责任制

第二，做好日常操作管理第三，做好会计档案管理。

（三）从技术上，提高网络系统的安全性和保密性第一，系统容错处理。

第二，安全管理体制。第三，安全保密技术。第四，为防止非法用户对网络环境下会计系统的入侵，可以采取端口技术和防火墙技术。（四）加强网络会计信息安全控制措施（五）加强人才培养，培养一大批复合型的会计人才

五、结论

六、致谢

三。毕业设计（论文）写作中存在的问题及解决措施：

1、选题困难：平时较少关注会计信息，对会计热点问题了解较少，对于论文题目的难易程度和范围自己不好控制。上网查找相关资料，了解各方面的信息，综合自己所学专业知识，大致上拟定几个题目，再请教老师，从中挑选一个适合的论文题目。

2、搜集资料：我国网络会计相对是一个比较新的会计领域，在这方面，会计界学者的研究还是比较有限的，资料搜集比较有难度，需要从多种渠道收集，上图书馆借阅相关图书，上中国知网搜索有关我国网络会计的相关资料，咨询专业老师获取相关建议。

3、毕业论文格式不熟悉：毕业论文对格式有着很高的要求，第一次写毕业论文，对格式很不熟悉，请教上一届的学长姐的同时上学校网上查找相关毕业论文格式的资料，另一方面在网上下载范文作为参考。

四、进度计划：（包括时间划分和各阶段主要工作内容）

总体安排：

首先与导师商定论文选题，之后就此选题到图书馆和网上进行资料收集，拟出论文提纲，再根据提纲完成论文初稿，并在导师的指导下进行论文修改，最后定稿。

具体安排：

第一阶段：准备阶段（2019—8—15至2019—11—8）

第二阶段：构建本论文的目标体系，设计内容，选择实施方法和途径（2019—11—9至2019—11—30）

第三阶段：完成初稿（2019—12—1——2019—12—31）

第四阶段：请指导教师审核初稿并征求意见（2019—1—1至2019—1—20）

第五阶段：修改论文初稿，完成二稿，请指导教师审核校阅（2019—1—20至2019—4—30）

第六阶段：毕业论文定稿并誊正（2019—5—1——2019—6—1）

第七阶段：毕业论文答辩（2019—6—8左右）

五、主要参考文献、资料：

[1]许永斌。电子商务会计。上海：立信会计出版社，2019。

[2]胡华。网络安全与会计控制。上海：立信会计出版社，2019。

[3]岳和平。网络化对未来会计工作产生的影响。太原科技，2019（3）。

[4]张英明。IT环境下会计信息系统内部控制研究。中国会计电算化，2019（1）。

[5]姚友胜。基于网络的企业内部控制及要素特征[J]。审计与经济研究，2019（6）。

[6]崔晓清。21世纪网络会计[J]。财务与会计，2019（4）。

[7]姚止海。网络时代挑战传统会计[J]。财务与会计，2019（4）。

[8]张前。网络环境下会计信息系统的特征[J]。广西会计，2019。

第9篇

[论文摘要]随着计算机技术的发展，使存储数据的技术手段也发生很大变化。存储信息并且防止信息丢失就成为了一个首要问题。利用RAID技术可以把数据分布到多个硬盘上，从而取得更好的稳定性和性能。

一、引言

随着计算机技术的快速发展和计算机应用的不断深入，计算机已经逐渐介入了我们的生活的方方面面，同时各个方面对计算机技术提出了更高的要求，为了适应人们的需要，计算机技术不断的在各个方面变革着。Internet的普及更加剧了信息的几何化增长，于是存储信息并且防止信息丢失就成为了一个首要问题。当然用于存储信息数据的设备就是关键了：比如对于一个大型的网站来说，因为存储设备的故障导致网站的片刻的瘫痪，也可能带来巨大的损失。那么，如何解决这一问题呢？很显然单靠用多个硬盘简单的备份不能从根本上解决问题。这时一种叫做独立冗余磁盘阵列（RAID）的技术就应运而生了，这种技术可以把数据分布到多个硬盘上，从而取得更好的稳定性和性能。

二、RAID技术

（一）RAID技术简介。RAID就是一种由多块廉价磁盘构成的冗余阵列，在操作系统下是作为一个独立的大型存储设备出现。RAID可以充分发挥出多块硬盘的优势，可以提升硬盘速度，增大容量，提供容错功能够确保数据安全性，易于管理的优点，在任何一块硬盘出现问题的情况下都可以继续工作，不会受到损坏硬盘的影响。

数据冗余的功能可以保证用户数据一旦发生损坏，就可利用冗余信息使损坏数据得以恢复，从而保障了用户数据的安全性。在用户看起来，组成的磁盘组就像是一个硬盘，用户可以对它进行分区，格式化等等。总之，对磁盘阵列的操作与单个硬盘一模一样。不同的是，磁盘阵列的存储性能要比单个硬盘高很多，而且可以提供数据冗余。

（二）RAID的几种模式。RAID的级别从RAID概念的提出到现在，已经发展了多个级别，有明确标准级别分别是0、1、2、3、4、5等。但是最常用的是0、1、3、5四个级别。其他还有6、7、10、30、50等。

1．RAID 0。RAID 0又称为Stripe或Striping，即Data Stripping数据分条技术，它代表了所有RAID级别中最高的存储性能。RAID 0是由多个硬盘并发协同工作完成数据的读写，数据被均匀分布在各个硬盘上，一般情况下，使用的硬盘越多，读写的速度越快。RAID0的特点是读写速度快，并且价格便宜；缺点是安全性相对较差，因为在RAID0中的一个硬盘出现故障时，整个阵列的数据将会丢失。RAID0是最快和最有效的磁盘阵列类型，但没有容错功能。因此，RAID 0不能应用于数据安全性要求高的场合。

2．RAID 1。RAID1称为磁盘镜像。原理是在两个硬盘之间建立完全的镜像，即所有数据会被同时存放到两个物理硬盘上，当一个磁盘出故障时，仍可从另一个硬盘中读取数据，因此安全性得到保障。但系统的成本大大提高，因为系统的实际有效硬盘空间仅为所有硬盘空间的一半。

3．RAID 3。RAID3是把数据分成多个“块”，按照一定的容错算法，存放在N+1个硬盘上，实际数据占用的有效空间为N个硬盘的空间总和，而第N+1个硬盘上存储的数据是校验容错信息，当这N+1个硬盘中的其中一个硬盘出现故障时，从其它N个硬盘中的数据也可以恢复原始数据，这样，仅使用这N个硬盘也可以带伤继续工作（如采集和回放素材），当更换一个新硬盘后，系统可以重新恢复完整的校验容错信息。由于在一个硬盘阵列中，多于一个硬盘同时出现故障率的几率很小，所以一般情况下，使用RAID3，安全性是可以得到保障的。与RAID0相比，RAID3在读写速度方面相对较慢。

4．RAID4。RAID4即带奇偶校验码的独立磁盘结构，RAID4和RAID3很像，它对数据的访问是按数据块进行的，也就是按磁盘进行的，每次是一个盘，RAID4的特点和RAID3也挺象，不过在失败恢复时，它的难度可要比RAID3大得多了，控制器的设计难度也要大许多，而且访问数据的效率不怎么好。

5．RAID5。RAID5把校验块分散到所有的数据盘中。RAID5使用了一种特殊的算法，可以计算出任何一个带区校验块的存放位置。这样就可以确保任何对校验块进行的读写操作都会在所有的RAID磁盘中进行均衡，从而消除了产生瓶颈的可能。RAID5的读出效率很高，写入效率一般，块式的集体访问效率不错。RAID5提高了系统可靠性，但对数据传输的并行性解决不好，而且控制器的设计也相当困难。

6．RAID 6。RAID6即带有两种分布存储的奇偶校验码的独立磁盘结构，它是对RAID5的扩展，主要是用于要求数据绝对不能出错的场合，使用了二种奇偶校验值，所以需要N+2个磁盘，同时对控制器的设计变得十分复杂，写入速度也不好，用于计算奇偶校验值和验证数据正确性所花费的时间比较多，造成了不必须的负载，很少人用。

7．RAID7。RAID7即优化的高速数据传送磁盘结构，它所有的I/O传送均是同步进行的，可以分别控制，这样提高了系统的并行性和系统访问数据的速度；每个磁盘都带有高速缓冲存储器，实时操作系统可以使用任何实时操作芯片，达到不同实时系统的需要。允许使用SNMP协议进行管理和监视，可以对校验区指定独立的传送信道以提高效率。可以连接多台主机，当多用户访问系统时，访问时间几乎接近于0。但如果系统断电，在高速缓冲存储器内的数据就会全部丢失，因此需要和UPS一起工作，RAID7系统成本很高。

8．RAID10。RAID10即高可靠性与高效磁盘结构它是一个带区结构加一个镜象结构，可以达到既高效又高速的目的。这种新结构的价格高，可扩充性不好。

9．RAID53。RAID7即高效数据传送磁盘结构，是RAID3和带区结构的统一，因此它速度比较快，也有容错功能。但价格十分高，不易于实现。

三、RAID级别的的选择

使用的容错算法和分块大小决定RAID使用的应用场合，在通常情况下，RAID3比较适合大文件类型且安全性要求较高的应用，如视频编辑、硬盘播出机、大型数据库等；而RAID5适合较小文件的应用，如文字、图片、小型数据库等。RAID级别的选择有三个主要因素：可用性（数据冗余）、性能和成本。

四、RAID技术的实现方法

RAID实现有两种方法，一种是用专门的控制新片来完成，控制芯片可以做成RAID卡的形式，也可以集成在主板上。另一种方法是用软件的方法来实现，比如WIN2000就含有软件RAID的功能。

总之，冗余磁盘阵列RAID技术，能够将有效数据和校验数据均匀分布在多个硬盘中并加入校验数据，当有硬盘损坏时，通过校验数据恢复损坏硬盘申的数据。在恢复过程中，不影响系统的服务。同时，RAID系统可以大幅度提高磁盘数据1/0(input/outpu志；输入输出)的性能。通过配置并使用RAID系统，可以最大限度地减少由于硬件损坏造成的系统故障和数据丢失。

参考文献

[1]基于网络RAID结构的IP存储广域网性能研究 / 崔宝江著。

[2]二级网络条纹数据布局及其相关问题的研究/ 刘晓光。

第10篇

摘要论文中首先对web集群系统运用markov模型描述了其可用性，从理论上建立了集群高可用模型。然后，着重针对web集群系统中区分服务对不同请求采取不同的服务质量，对可用度的指标要求也不相同的情况，提出了一种基于概率的实时容错调度算法。关键词 web集群，可用度，容错调度，算法 1 引言由于internet中信息的数量呈指数级增长，其中的主要信息是web信息，因此，基于单一系统映像的web服务器集群系统是满足当前应用的有效方法。该方法把若干性能较低的服务器用局域网连成一个性能较高的整体，即web服务器集群[1],系统结构如图1所示，前端分发器依据一定的原则将客户请求分发给后台服务器，后台服务器执行客户请求后返回给客户，使其从客户端看来就如同一台服务器。图1 web集群系统模型图高可用性是web集群系统提出的三大目标（高性能、高可用、易扩展）之一，它起初主要是利用系统中后台服务的冗余来达到系统的高可用性，但是随着研究的深入和基于内容的前端分发器的发展，并不要求后台服务是同一的，这就增加了系统的灵活性，提高了处理机的利用率，同时允许系统进行动态配置，如负载均衡调度等，这也给系统可用性设计与调度提供了更多的要求。但值得指出的是：一直少有对系统可用度的研究，特别是利用数学模型建模来进行定性与定量分析的实时容错调度算法研究。现有的可用度研究大多只针对冗余服务的可用性,而对它们的性能考虑得不够全面[2,3]。本文的研究工作主要在于：首先对web集群系统运用markov模型描述了其可用性，从理论上建立了集群高可用模型。然后，着重针对web集群系统中区分服务对不同请求采取不同的服务质量，对可用度的指标要求也不相同的情况，提出了一种基于概率的实时容错调度算法，算法采用了请求的主从备份技术。通过延迟从备份请求重新转发时间，来为可能因处理机故障而执行失败的主请求实现容错功能，并通过对无错时停止重发来提高处理机的利用率和系统对任务的接收率,实验结果证实了算法的有效性。 2 web集群可用度数学模型与分析当构成系统各部件的寿命分布和故障后的修理时间分布均为指数分布时，只要适当定义系统的状态，这样的系统总可以用马尔可夫过程来描述。如果一个离散马尔可夫过程的状态转换只限于相邻状态之间，则称此过程为一个生灭过程[4]。对于生灭过程，可用自然数来表示可能的状态，而处于状态n的一个过程在下个时刻只能转换到状态n-1或状态n+1。生灭过程处于状态n的稳态概率pn如下： (1) 式中，p0为系统处于状态0的稳态概率。再根据 (2) 可以得到系统处于每个状态的稳态概率[5]。针对集群系统，可以做如下模型假定：①故障和修复的到达时刻都是指数分布的,分别为λn和μn；②对每个节点在时刻(t,t+dt)发生故障的条件概率是ldt；③对每个节点在时刻(t,t+dt)完成修理的条件概率是mdt；④同时出现两个或更多个节点故障或修理的概率是零；⑤每个节点的故障或修理的事件与所有其它事件无关。这样就可以建立集群系统的可用度模型。集群系统由n个节点组成，其状态n的稳态概率pn 就是集群高可用系统中所有节点都出现故障，即整个系统不可用的概率，而a=(1- pn)即为集群系统的可用度。 (3) 求解(2)、(3)式得：这样，集群系统处于状态n的稳态概率pn为： (4) 由此得到集群系统的可用度为 (5) 对式(5),随着节点数的增加，系统的可用度迅速增加。假定平均修复时间为0.5小时。计算可得，在有4个结点的集群系统中，即使每个结点的故障率高达0.1次/小时，集群系统的可用度已经达到99.9%。那么已知系统所需的可用度为an，很容易得到所需服务器台数为： n= (6) 3 基于概率的实时容错调度 3.1 实时容错调度算法的基本思想随着电子商务等关键业务的发展，要求任务的执行可用度很高，而且往往都有严格的时间约束,若由于处理机的故障导致某些任务不能完成，或不能在其限定的时间之前完成，就可能造成重大损失[1,6]。因此需要在web集群系统中提供一定的实时容错调度能力以提高整个系统的可用性。文献[7]、[8]提出在不同处理机上调度任务的多个版本来运行，以此达到容错的目的。但是，同样任务的多个版本，运行时具有同样的请求，系统利用率只有1/n。文献[9]提出了一种回收的方法，提高了系统效率。系统的请求集可定义为γ={ti|i=1,2,…}。ti可以用一个四元组(gi，si，di，pi)来表示。其中，gi表示请求到达系统的时间；si表示请求被调度开始执行的时间；di表示请求必须执行完成的时间，即deadline；pi表示请求的执行时间；采用的故障模型同第2节[5]，另外，在对请求进行容错调度的同时，系统要能及时通过“心跳”诊断并报告处理机故障[10]。由于处理机之间通信所需时间与请求的执行时间相比非常短，因此可忽略处理机之间消息的传递时间[7,8]。基于概率的实时容错调度算法基本思想如下：对任一动态到达系统的非周期性任务ti，我们将首先置入主请求队列qp，同时将此请求复制一份到从请求队列qb，主请求记为pti,，从请求(或称为后备请求)记为bti，确定它的区分

服务等级k，以区分服务的等级确定从备份请求的延迟时间和重发的概率，以这二个参数标记从备份请求队列bti，如果在tri重发时间前收到pti成功执行的报告，则取消bti，否则按标记重发tri，这就是无错时停止重发以提高系统的性能。假设pti与bti被调度的时间段分别记为slot(pti)与slot(bti)，那么实时容错调度算法如图2所示。 3.2 实时容错调度算法算法：实时容错调度算法 1、当一个新请求ti到达系统后，先将pti置入主请求调度队列，通过复制获得从备份请求bti，置入从请求队列。确定四元组中的三个元素{ gi，di，pi }和区分服务等级ki。 2、在前端分发器中调度pti。 ① 主请求队列中的pti根据负载均衡原则调度到调度表中允许的可用服务器，调度开始执行时间为si。 ② 依据区分服务等级确定延迟时间区间范围：delayti=[si,di-pi]； ③ 依据区分服务等级确定重发的时间sbti和概率pbti，sbti=（1-ξ）* delayti, pbti=k*ξ； //ξ为区分服务所对应的级别，在(0～1)之间，k为常数； ④ 以(pbti，sbti ，di，pi)标记从备份请求bti； 3、以bti的调度参数调度bti执行，调度满足如下原则：server(pti)!= server(btj),如果server(pti)= server(ptj)且server(bti) = server(btj)，那么slot(bti)∩slot(btj)=φ,其中,i≠j； // server(ptj)表示处理请求ptj的服务器； 4、对从请求任务在调度前收到pti正常执行结束的消息,则取消从备份队列中的bti请求。图2 实时容错调度算法 4 分析与仿真实验结果通过对第2节的分析，我们很容易得到在不同系统参数下，web集群系统服务器台数与可用度的关系，如图3所示。

图3 不同参数下，系统可用度与服务器台数的关系对于容错调度算法，spare processor方法[9]是采用一个或多个处理机作为备份，若系统出现故障时，则把故障机上的任务全部转移到备份处理机上运行，采用重新执行的方式来恢复。而若在系统没出现故障时,备份处理机一直处于空闲状态。实时容错调度算法中主要考虑系统可用度的提高与系统接纳率，我们考虑在第2节故障模型下，采用容错调度算法后，可用度与系统利用率的关系如图4所示，可用度越高，系统利用率则越低。图4 可用度与系统利用率关系图图5表示与其它算法[9]在不同负载率情况下拒绝率的对比，从而说明本研究中所提出的实时容错调度算法能提高系统的接收率。

图5 不同负载下系统拒绝率对比图 5 结论服务器冗余是提高系统可用度的基础，但同时降低了系统性能。论文主要从集群系统可用度的数学建模和容错调度二个方面分析了提高可用度的措施，实验结果表明算法很好地支持了系统的可用性，对于集群与分布式系统的高可用性分析与容错调度有较好的指导作用。参考文献 1 v. cardellini, e. casalicchio, m. colajanni, p.s. yu. the state of the art in locally distributed web-server systems. acm computing surveys, 2002, 34(2): 1-49. 2 钱方，贾焰等. 提高冗余服务性能的动态容错算法. 软件学报，2001，12(6): 928-935. 3 周幼英，李福超等.关于调度算法与web集群性能的分析. 计算机研究与发展，2003,40(3): 483-492. 4 p.r. parthasarathy ,r.b. lenin on the exact transient solution of finite birth and death processes with specific quadratic rates. math. scientist, 1997, 22: 92-105. 5 高文，祝明发. 基于生灭过程的机群系统高可用性分析与设计. 微电子学与计算机，2001，18(4): 47-49. 6 郑在宾，金海等. 有tcp连接容错功能的网络负载平衡调度系统. 华中科技大学学报，2003,31(2): 17-19. 7 ying feng,son sang h. scheduling hard real-time tasks with tolerance of multiple processor failures. microprocessing and mcroprogramming, 1994,40: 193～206. 8 piestman a l. a fault-tolerant scheduling problem. ieee trans on software engineering, 1988, (12): 1089-1095. 9 sylvain lauzac, rami melhem. adding fault-tolerance to p-fair real-time scheduling. in: workshop on embedded fault-tolerant systems 1998，34-37. 10 曾碧卿，陈志刚. 服务器集群系统研究. 计算机应用研究，2004，21(3)：186-187，196

第11篇

【关键词】教务管理系统；双机容错；Heartbeat；Oracle；数据恢复

高校教务管理系统是学分制与信息化技术结合的产物。学分制是一种教学管理制度，是对学生在完成学业的过程中的一种管理手段，学生根据学分制中的具体制度，来制定自己的学习计划。高校教务管理系统便是为了使用信息化手段来解决学分制骤然而生的巨大工作量而诞生的。本文介绍了集群以及双机容错的基本理论。对教务管理系统改造双机容错进行了功能需求的分析，提出了设计目标，并针对每个功能模块给出了设计。

一、高校教务管理系统的体系结构

高校教务管理系统的使用人群为全体在校的学生、教师、教务处人员和院系教辅人员。众多的学生和教师需要能够随时、随地使用系统，因此，系统应为B/S结构；而教务处人员和院系教辅人员需要大量的处理数据，并且地点固定，因此，系统还需要C/S结构。此外，教务管理系统中需要存储大量的数据，比如在校生的信息和已毕业学生的信息，历年学生的成绩，教师的信息，教材的信息等等。因此，应选择中、高级的数据库系统，比如SQLSERVER或ORACLE等。

二、双机容错的工作模式

所谓的双机热备份，就是一台主机为工作机（Active Server），另一台主机为备份机（Standby Server）。在这种容错方案中，各服务器只需一块网卡，共同连接在同一网络上，在系统正常情况下，工作机为信息系统提供支持，备份机监视工作机的运行情况，与此同时工作机也监视备份机是否正常。工作机会通过互连的网络线，周期性地发出用于相互检测的测试包给备份机。如果此时工作机出现故障，备份机在连续丢失设定数目的检测包后，会认为工作机出现故障，自动检测设置中是否有第二种心跳，如果没有第二种心跳的话，备份机则根据已设定的规则，启动备份机的相关服务，完成双机热备切换。备份机主动接管（Take Over）工作机的工作，继续支持信息的运营，从而保证信息系统能够不间断地运行（Non-Stop）。

双机共享磁盘阵列柜方式是以磁盘阵列柜为中心的双机容错方案。磁盘柜通过SCSI线连接到两个系统上，并能被两个系统所访问。关键数据放在共享磁盘柜中，在正常运行时，控制权在主用系统上，当主用系统发生故障或主用系统检查到某种故障后，系统控制权就切换到备用主机。主用系统修复后，主备角色互换，双机系统进入正常工作模式。使用共享磁盘阵列方式的两台（或多台）服务器的数据同时存放在一个磁盘阵列柜里，因此，不需要进行数据复制，只需在其中一台服务器停机时将此服务器的工作转移至另外一台服务器，工作较为简单。由于数据存储在同一磁盘阵列柜里，一旦磁盘阵列柜的数据损坏则数据全部丢失，有单点崩溃的可能性，而且由于服务器与磁盘阵列柜之间通常使用SCSI线连接，因此受到距离的限制。

三、双机容错的教务管理系统的总体架构

1.总体设计。ORACLE双机容错的工作过程设想如下：其中一台服务器被指定为工作机，由它处理当前运行的业务，另一台为备用机。备用机平时不参与业务处理，仅完成数据镜像任务。一旦工作机发生故障，备用机立即启动对外提供服务，使运行着的业务不至于因为系统的单点故障中断，实现系统的高可用性。①正常状态中，工作机提供服务，同时监测备用机的状态；备用机监测工作机的运行状态。②当工作机运行异常时，备用机立刻接替工作机的工作，代替工作机向外部提供服务。③系统管理员将工作机故障排除后，可将工作机设置为备用机，也可以由工作机替回备用机。

2.系统软硬件平台。①硬件平台。WEB服务器和两个ORACLE数据库服务器均采用DELL服务器，2个Xeon2.6GHz处理器，内部存储器为SDRAM ECC 2GB，外部存储器为73 GB的SCSI Ultra2，使用INTEL公司的E1000双网卡。②软件平台。WEB服务器使用Windows Server 2003操作系统，WEB服务使用WebLogic8.1版本。两台数据库服务器的软件：①Redhat Linux Advance Server 4②Oracle9i③Heartbeat-2.1.3④Mon-1.2.0⑤3Com boot services⑥Symantec Ghost8.0网络版。

3.模块设计。根据可用性的定义公式可知，提高系统的可用性有两种方法：增加MTTF和减少MTTR。增加MTTF就是增加系统的可靠性；减少MTTR的做法就是当故障的产生难以进行有效的预测和消除时，通过快速故障恢复，降低平均修复时间以达到提高可用性的目的。

双机容错的乾豪教务管理系统分为四个主要模块：心跳监控模块、数据同步模块、监测模块和系统维护模块。

4.系统维护模块的实现。可以采用Oracle的逻辑导出（EXPORT命令）来备份数据库，可以采用定时备份和人工备份相结合的工作方式，即在教学活动不频繁的情况下，采用每周一次的定时备份，备份时间可以放在晚上或者凌晨；而教学活动频繁的时候，比如学生选课阶段和教师录入成绩阶段，此时，可由人工每天备份一次。备份出来的文件应及时刻录光盘，并远离服务器存放，避免服务器突发故障。

参考文献：

第12篇

关键词：系统容错;负载平衡;数据集成服务;数据传输;数据仓库;数据采集、

1. 数据集成服务系统

1.1数据集成服务系统(DTS)的发展历史及现状

DTS 是英文Data Totalization Service 的缩写，意思是数据集成服务。DTS集成了数据采集、数据传输、数据处理、数据仓库等多项技术，使用了最先进的互联网技术，把信息技术与传统的石油勘探开发进行了有机的结合。DTS 数据集成起源于1999 年中海技服承担的国家863 钻井液技术集成项目，经过不断地开发，最后形成了功能强大的集成化数据服务。

目前DTS服务已经成功地推广到渤海五号的QHD作业区、渤海十号的SZ作业区及南海四号的W作业区，并成功地将数据实时地显示到中海石油有限公司的各个地区公司。

1.2 DTS的系统结构

DTS对作业现场的数据集成后实时地传输到下设在陆地的数据库服务器，然后由数据中心进行分析处理, 分析处理的结果则及时地反馈给作业现场，同时利用网络技术分发给网上的各远程终端。

DTS系统结构如图1.1

图1.1 DTS系统结构图

（注1：在此进行动态平衡处理整个系统的作业任务，使系统负载处于优化状态。）

由图1.1可以看出：DTS的油田远程勘探、开发数据集成服务系统主要由三部分构成：现场采集装置；传输装置；各种地质、工程资料装置。

该系统集成了油田开发过程中钻井、完井、油藏测试等各个阶段的现场数据，形成了完善的钻完井信息管理系统。通过数据集成服务，不仅有助于后方基地的决策，而且可以实现作业过程的远程监控及现场数据资源的二次开发。其成功的应用，改变了传统的管理模式和工作方法，对安全、优质、高效、低耗、低污染的石油勘探开发提供了有力的技术支持。

DTS系统把各种现场数据采集设备采集的数据通过卫星与总部数据库与其它各种终端进行传输，在这个庞大的传输系统中不可避免地要遇到分布式系统几乎全部要遇到的瓶颈问题―――即整个系统的负载平衡、系统容错问题。

2．系统容错和负载平衡技术概述

2.1 概念

系统的容错和平衡负载是大型分布式系统中的两个重要的概念。在分布式系统中，相对客户端无需知道中间层应用服务器的确切位置，所以中间层应用服务器出错所造成的危害往往是致命的。但是，如果多个执行相同任务的服务器同时工作，系统在某个服务器发生故障后能将当前服务器中的任务切换到另一台正常工作的服务器，这将实现系统的自动容错功能。同样，如果能将大量的任务平均分配到多个执行相同服务的服务器，这将平衡服务器的负载，减少系统等待时间，提高整个系统的效率。

2.2 特点

(1)当某台应用服务器发生故障时，原先连接到该应用服务器的相对终端可以立刻连接到其它提供相同服务的应用服务器，并继续相互进行作业，这就是所谓的容错能力。

(2)断点续传功能：这种机制能够有效地避免数据传输或保存的冗余重复。

(3)能够根据系统的不同负荷，动态分配数据传输链路连接，不至于有的相对终端负载过重，有的相对终端负载相对过轻，使所有的相对终端的负载达到一个平衡。这就是所谓的负载平衡能力。

3．系统容错和负载平衡技术的实现

Delphi提供了一个TSimpleObjectBroker组件，该组件提供了基本的容错能力和负载平衡能力，通过对此组件编程来实现系统的平衡负载和自动容错功能。

3.1容错能力的实现

TSimpleObjectBroker组件能维护一个能够执行应用服务器的机器列表，并且提供其中的机器名给TDCOMConnection或TSocketconnection作为连接的远程机器的名称。当TDCOMConnection或TSocketconnection连接的主机出现故障时，TDCOMConnection或TSocketconnection可以从TSimpleObjectBroker取得一个新的能够执行应用程序服务器的远程机器名称，然后再连接到这台新机器以取得应用程序服务器的的服务。

3.2暂存数据的实现

TClientDataSet组件提供了两个方法SavetoFile和LoadFromFile。当所有的应用程序服务器都发生了故障，或是数据库服务器发生了故障，调用SaveToFile方法把ClientDataSet中所有的数据包括在相对客户端更新的数据保存到一个文件中，然后在应用程序服务器或是数据库服务器恢复正常后再执行相对客户端应用程序，调用LoadFromFile方法加载先前存储的数据到ClientDataSet中，再调用ApplyUpdates方法把相对客户端更新的数据更新回数据库中。

3.3 负载平衡能力的实现

要让分布式多层结构提供负载平衡能力，只需TSimpleObjectBroker的LoadBalanced属性设为True就可以提供简单的负载平衡能力。

3.4 断点续传的实现

现场数据集成系统将采集并经过处理的数据按照某种协议进行分割打包成一个个经过编码的数据元，在以经过编码的数据元为单位的数据传输过程中如发生中断，系统的断点续传功能将自动记载先前进行数据传输IP地址、主机号及数据传输发生中断时断点数据元的编码，当恢复数据传输后系统从数据传输发生中断时的断点开始进行数据传输。这样就避免因数据重复传输而造成的数据冗余。

4．结束语

远程数据集成系统不能只是现场数据的简单再现。未来的数据集成系统还要从以下几个方面加以发展：

（1）、围绕需求在充分利用井场信息，收集整理井场其它资料以充实数据来源，在此基础上完成多种资料的数字化、规范远程传输的数据格式和内容。

（2）、编制适合不同需要、丰富高效的客户端软件。

（3）、要充分利用实时数据资料，充分利用已有的软件，加快开发急需的事故诊断、专业分析、工程评价等应用软件，不断提高生产管理者的决策水平。

参考文献:

[1]．宋永强．油田数据集成服务系统简介．中国海洋石油总公司技术服务公司(2001.3)

[2]．姜洪．张希等．数据库技术．国防工业出版社

[3]. 李标．Internet技术在石油工业中的应用．中国海洋石油出版社

[4]．罗昌隆．油田远程勘探、开发数据集成服务系统．石油工业出版社

[5]. 陈彦林王晓宁. 开发安全稳固的分布式多层应用系统. 中国航天科技集

团第十一研究所计算中心

第13篇

论文摘要:当现代社会逐渐变为具有高度的相互依赖的巨大网络时，我们所生活的世界无法不变成一个被计算机网络紧密联结起来的世界。计算机网络从技术角度来说，是作为一种布局，将经有关联但相距遥远的事物通过通信线路连接起来，但是对网络的思考决不是传统的二维平面思维甚至三维的球面思维所能达到的。因此，计算机网络的可靠性便成为一项关键的技术指标。本文在介绍了网络可靠性的概况后，详细阐述了计算机网络可靠性优化的技术分析。

在信息时代，网络的生命在于其安全性和可靠性。计算机网络最重要的方面是它向用户所提供的信息服务及其所拥有的信息资源，网络连接在给用户带来方便的同时，也给网络入侵者带来了方便。因此，未来的计算机网络应该具有很高的安全性和可靠性，可以抵御高智商的网络入侵者，使用户更加可靠、更加方便地拥有大量各式各样的个性化客户服务。

一、计算机可靠性模型研究

计算机网络可靠性作为一门系统工程科学，经过5 0多年的发展，己经形成了较为完整和健全的体系。我们对计算机网络可靠性定义为：计算机网络在规定的条件下，规定的时间内，网络保持连通和满足通信要求的能力，称之为计算机网络可靠性。它反映了计算机网络拓扑结构支持计算机网络正常运行的能力。

计算机网络可靠性问题可以模型化为图的可靠性问题。计算机网络模型采用概率图G(V，E)来表示，其中结点集合v表示计算机网络的用户终端，主机或服务器等，边集合E表示计算机网络的链路。计算机网络模型的概率图，是对图的各边以及结点的正常运行状态赋予一定的概率值以后所得到的图。图的可靠性问题包含两个方面的内容:一是分析问题，即计算一个给定图的可靠度;二是设计问题，即在给定所有元素后，设计具有最大可靠度的图。图的可靠度不方便求解时，可先求其失效度(可靠度+失效度=1)，然后再求其可靠度。图的结点和链路失效模型可分为链路失效模型、结点失效模型、结点和链路混合失效模型等三种类型，其中“结点和链路混合失效模型”最为常用。

二、计算机网络可靠性的设计原则

在计算机网络设计和建设的工程实践中，科研人员总结了不少具体的设计经验和原则，对计算机网络可靠性的优化设计起到了较好的规范和指导作用。在构建计算机网络时应遵循以下几点原则：

遵循国际标准，采用开放式的计算机网络体系结构，从而能支持异构系统和异种设备的有效互连，具有较强的扩展与升级能力。

先进性与成熟性、实用性、通用性相结合，选择先进而成熟的计算机网络技术，选择实用和通用的计算机网络拓扑结构。计算机网络要具有较强的互联能力，能够支持多种通信协议。计算机网络的安全性、可靠性要高，具有较强的冗余能力和容错能力。计算机网络的可管理性要强，应选择先进的网络管理软件和支持SNMP及CMIP的网络设备。应选择较好的计算机网络链路的介质，保证主干网具有足够的带宽，使整个网络具有较快的响应速度。充分利用现有的计算机网络资源，合理地调配现有的硬件设施、网络布线、已经成熟的网络操作系统软件和网络应用软件。计算机网络可靠性设计的性价比应尽可能高。

三、计算机网络可靠性主要优化设计方法分析

提高计算机网络相关部件的可靠性与附加相应的冗余部件是改善计算机网络可靠性的两条主要途径。在满足计算机网络预期功能的前提下，采用冗余技术(增大备用链路条数)一方面可以提高计算机网络的局域片断的可靠性；另一方面也提高了计算机网络的建设成本。由于每条计算机网络链路均有可靠性和成本，故计算机网络中的链路的数目越少，相应地，计算机网络的可靠性就越高。下面我们从以下几方面来加以论述：

(一)计算机网络的容错性设计策略

计算机网络容错性设计的一般指导原则为：并行主干，双网络中心。计算机网络容错性设计的具体设计方案的原则，可以参照以下几点：

采用并行计算机网络以及冗余计算机网络中心的方法，将每个用户终端和服务器同时连到两个计算机网络中心上。

数据链路、路由器在广域网范围内的互联。计算机网络中的边界网络至网络中心采用多数据链路、多路由的连接方式，这样可以保证任一数据链路的故障并不影响局部网络用户的正常使用。

转贴于

计算机网络设计时，应采用具有模块化结构、热插热拨功能的网络设备。这不仅可以拥有灵活的组网方式，而且在不切断电源的情况下能及时更换故障模块，以提高计算机网络系统长时间连续工作的能力，从而可以大大提高整个计算机网络系统的容错能力。

网络服务器应采用新技术，如采用双机热备份、双机镜像和容错存储等技术来增强服务器的容错性、可靠性。

在进行网络管理软件容错设计时，应采用多处理器和特别设计的具有容错功能的网络操作系统来实现，提供以检查点为基本的故障恢复机能。

（二）计算机网络的双网络冗余设计策略

计算机网络的双网络冗余性设计是在单一计算机网络的基础上再增加一种备用网络，形成双网络结构，以计算机网络的冗余来实现计算机网络的容错。在计算机网络的双网络结构中，各个网络结点之间通过双网络相连。当某个结点需要向其它结点传送消息时，能够通过双网络中的一个网络发送过去在正常情况下，双网络可同时传送数据，也可以采用主备用的方式来作为计算机网络系统的备份。当由于某些原因所造成一个网络断开后，另一个计算机网络能够迅速替代出错网络的工作，这样保证了数据的可靠传输，从而在计算机网络的物理硬件设施上保证了计算机网络整体的可靠性。

（三）采用多层网络结构体系

计算机网络的多层网络结构能够最有效地利用网络第3层的业务功能，例如网络业务量的分段、负载分担、故障恢复、减少因配置不当或故障设备引起的一般网络问题。另外，计算机网络的多层网络结构也能够对网络的故障进行很好的隔离并可以支持所有常用的网络协议。计算机网络的多层模式让计算机网络的移植变得更为简单易行，因为它保留了基于路由器和集线器的网络寻址方案，对以往的计算机网络有很好的兼容性。计算机网络的多层网络结构包含三个层次结构：

接入层:计算机网络的接入层是最终用户被许可接入计算机网络的起点。接入层能够通过过滤或访问控制列表提供对用户流量的进一步控制。在局域网络环境中，接入层主要侧重于通过低成本，高端口密度的设备提供服务功能，接入层的主要功能如下:为最终网络用户提供计算机网络的接入端口；为计算机网络提供交换的带宽；提供计算机网络的第二层服务，如基于接口或Mac地址的Vlan成员资格和数据流过滤。

分布层:计算机网络的分布层是计算机网络接入层和核心层之间的分界点。分布层也帮助定义和区分计算机网络的核心层。该分层提供了边界定义，并在该处对潜在的费力的数据包操作进行预处理。在局域网环境中，分布层执行最多的功能有:V L A N的聚合；部门级或工作组在计算机网络中的接入；广播域网或多点广播域网在计算机网络中的联网方式的确定；

（四）核心层

计算机核心层是计算机网络的主干部分。核心层的主要功能是尽可能快速地交换数据。计算机网络的这个分层结构不应该被牵扯到费力的数据包操作或者任何减慢数据交换的处理。在划分计算机网络逻辑功能时，应该避免在核心层中使用像访问控制列表和数据包过滤这类的功能。对于计算机网络的层次结构而言，核心层主要负责以下的工作:提供交换区块之间的连接；提供到其他区块(如服务器区块)的访问；尽可能快地交换数据帧或者数据包。

纵观未来计算机网络的发展，人们对待网络的要求将越来越高。他们希望创造一个“点击到一切”的世界，尽管这个简单的想法让它成为现实并不是一件很容易的事情，但是一旦认识到计算机网络美好的发展前景，凭借人类的智慧，我们有理由相信我们的世界将由此得到它前所未有的自由。

参考文献

[1]叶明凤，计算机网络可靠性的研究，电脑开发与应用，2001

第14篇

摘要：针对分布式容错技术的研究，提出了两点关键要求：降低冗余开销、提高节点修复效率。分析目前主流的容错策略：复制、纠删码、再生码、基于局部可修复码，并认为这些容错策略存在不同程度的缺陷，因此设计出容错能力、计算效率及存储利用率更高的容错策略，仍是未来很长一段时间内值得深入研究的问题。

关键词：大数据；可靠性；分布式存储；容错技术

Abstract： Two key requirements of fault tolerance technology are proposed in this paper： minimal storage overhead and maximum node recovery performance. Four main strategies for fault tolerance are analyzed： replication， erasure codes， regenerating codes and locally repairable codes. It is considered that these fault tolerance strategies have different defects. Designing a fault tolerance strategy with higher fault tolerance， better computational efficiency and memory utilization will still be a problem needs to be solved in the future.

Key words： big data； reliability； distributed storage； fault tolerance technolog

随着经济全球化的发展和科技改革的推进，网络覆盖面积不断加大，信息交互随之增强，全球数据正在以爆炸式的速度增长。国际数据公司（IDC）报告指出，从2010―2020年全球数据量将有50倍的增长，预测达到40 ZB数量级[1]。同时海量数据对存储系统提出了巨大的挑战，根据统计，数据存储的需求每年的增速在50%～62%之间。大规模分布式存储系统以其海量存储能力、高吞吐量、高可用性和低成本的突出优势成为存储海量数据的有效系统并被广泛使用。当前最主流的分布式系统是开源的Hadoop分布式文件系统（HDFS）[2]，作为GFS[3]的一个开源实现，它被应用于众多大型企业，如Yahoo、Amazon、Facebook、eBay等。

随着分布式存储系统的规模越来越大，为节省成本，存储节点大多采用廉价、可靠性差的设备，这直接导致节点故障越来越频繁。图1给出了Facebook部署的Hadoop集群的日节点失效数。集群共3 000个节点，涉及45 PB数据，平均每天有22个节点失效，最高的日节点失效超过100个[4]。如何有效保障数据可靠性成为了当前分布式存储系统首要关注的问题。

为了提供可靠的存储服务，分布式存储系统通过引入冗余信息来提高系统的容错能力。这种冗余存储的方式能够使系统容忍一定数量的节点故障[5-6]，同时系统还需要一个良好的节点修复机制，在发生故障时能快速有效地修复失效数据，维持系统冗余度。

1 基于复制的容错技术

复制策略是引入冗余最简单的方法，其基本思想是为系统中的每一个数据对象都建立若干个相同的副本，并把这些副本分散存储在不同的节点上，当遇到某个数据损坏或失效而无法正常使用时，可通过访问最近的存储节点来获取与原件完全一致的数据备份，这样只要数据对象还有一个存活副本，分布式存储系统就可以一直正常运行。修复过程也十分简单高效，只要向所有存储副本的节点中最近的节点发出请求、下载并重新存储，即可恢复系统冗余度。复制策略存储方式简单，易于实现，故障修复容易，并且便于扩展。此外，存储的多个副本也可以均摊读文件时的负载，如通过为热点文件配置更高的副本数来支持高效的并发读操作。

但是在节点数量庞大，存储结构复杂的大规模分布式系统中，要实现快速高效的容错技术，必须解决3个问题：副本数量的设置、副本的放置方式和副本的修复策略。

1.1 副本数量设置

设置副本数量一般有两种方式：一是静态设置，主流的分布式文件系统如HDFS[2]和GFS[3]都是采用3副本固定机制，这种方法操作简单，但灵活性差；二是动态设置副本数量，亚马逊分布式存储系统S3提供用户可以自行设定副本数的功能。另外，文献[7]提出一种动态的容错机制，系统根据数据的访问频率、出错概率、网络状况以及存储时间等动态因素决定副本数，同时动态地删除或添加副本，这种动态机制能大大增加存储空间的利用率、提高数据的获取性能，但动态决策方式会加大系统的处理开销。

1.2 副本放置策略

副本的放置策略不但影响分布式存储系统的容错性能，还关系到副本的存储效率和访问效率。HDFS采用的3副本放置策略，如图2所示[2]。3副本放置策略为：本地放一份，同机架内其他任一节点放一份，不同机架的任一节点放一份。同机架内存放两个副本，可减少机架间的数据传输，方便本地节点对于数据需求时的读取。若本地数据损坏，节点可以从同一机架内的相邻节点获取数据，读取速率快。而数据块存放在两个不同的机架中能避免机架故障导致的数据不可用。同时，为了降低整体的带宽消耗和读取延时，HDFS会尽量让读取程序读取离它最近的副本。如果在读取程序的同一个机架上有一个副本，那么就读取该副本。如果一个HDFS集群跨越多个数据中心，那么客户端也将首先读本地数据中心的副本。

1.3 副本修复策略

容错技术的修复过程事实上就是恢复系统的冗余度，保证其在一定的可接受范围内。实际的存储系统采用的修复策略有两种：一种是“主动”修复策略[8]，一旦检测到一个副本失效立刻创建一个新副本；另一种是基于阈值的“惰性”修复策略，这种策略只有当备份数量小于某个阈值才进行修复，如Total Recall[9]。根据资源的访问频率，可以分为热门资源和冷门资源，热门资源一般采用主动修复，而访问量小的冷门资源则可以采用惰性修复策略，减少修复临时失效等不必要的开销。

2 基于纠删码的容错技术

纠删码起源于通信传输领域，由于其数学特性，被逐渐应用于大规模存储系统中，特别是分布式存储环境，实现数据的冗余保护。相较于复制策略，纠删码技术在相同可靠性条件下可以最小化冗余存储，学术界和工业界已将纠删码广泛应用于分布式文件系统。例如卡耐基梅隆大学研究的DiskReduce[10]、Facebook的HDFS-RAID[11]、谷歌的Colossus[12]、微软的Azure[13]存储系统均采用了纠删码并实现了更经济的可靠性。

2.1 纠删码基本原理

纠删码的基本原理如图3所示，存储原始文件O，首先将其切分成k个数据块，记为O1， O2， …， Ok，然后编码生成n个编码块，记为B1， B2， …， Bn，n>k，最后将这n个编码块按照一定的放置规则分别存储在不同的节点上。编码过程中生成了冗余数据，当系统中有存储节点失效时，只要留下足够的编码块就可以利用这些剩余的编码块恢复出丢失的数据，维持系统的冗余度。若n个编码块中任意k个块即可重构原始文件O，则这种纠删码满足最大距离可分特性（MDS）[14]，在可靠性和冗余的权衡上达到最优，最常用的编码方法是RS码[15]。

2.2基于纠删码的分布式存储模型

在分布式存储系统中，数据分布在多个相互关联的存储节点上，通常情况下，映射生成的编码块需要存储在不同的节点上。图4给出了一种基于纠删码的分布式存储模型[16]，假设系统中含有n个存储节点，其中k个是数据节点，m个是编码节点，即满足n = k + m。k个数据节点存储原始数据块，标记为D0， D1，…， Dk-1；m个编码节点存储编码数据块，标记为C0， C1， …， Cm-1。纠删码算法需要将原始文件切割成k等份后依次存储在k个数据节点中，并将编码生成的m份放入m个编码节点。当存储大文件时，需要对原始文件进行二次切割，即每次从文件中读取指定大小的数据量进行编码，我们将一次编码过程中涉及的原始数据和编码数据称为一个stripe[16]。一个stripe独立地构成一个编码的信息集合，不同stripe之间相互无关。但是，逻辑上的stripe与实际物理节点的对应关系并不是恒定不变的，可以通过stripe的轮转实现数据存储负载均衡。

与复制策略相比，纠删码策略可以有效地降低维持可靠性所需的存储开销，提供令人满意的存储效率[5]。

2.3纠删码技术的缺陷

然而，基于纠删码的容错技术未能在实际的大规模分布式存储系统中真正应用，除了其结构较复制策略复杂外，纠删码本身在数据恢复时存在致命的缺陷。在基于纠删码的分布式存储系统中，当一个节点失效时，为维持系统冗余度，新节点需要首先从k个节点中下载全部数据恢复出原始文件，再重新编码生成失效的数据，这个过程中传输的数据量是失效数据的k倍。当节点在网络中分布较分散时，节点的修复需要消耗大量的网络带宽。这一缺陷在普通分布式系统中已有制约，在大数据环境下，数据量和存储节点在成倍甚至几何级增长时更为明显。同时，需要的下载量太大势必会导致节点修复过程变慢，对于不断发生故障的分布式存储系统来说，节点的修复速率直接影响到系统可靠性。如果修复速率过慢，甚至赶不上节点发生故障的速度，那么系统将无法维持其可靠性。据Facebook在HotStorage’13上的论文指出，纠删码的低效修复已经成为限制其广泛应用的瓶颈所在[4]。

针对纠删码的修复问题，Rodrigues提出了一种混合策略[5]：采用纠删码的同时维护一个副本，从而有效减少修复带宽。然而，这种混合策略节省带宽有限，但存储开销大，同时使得系统设计复杂化。Dimakis创造性地将网络编码应用于分布式存储，提出再生码的概念[17]，显著降低了修复带宽。

3 基于再生码的容错技术

3.1再生码的基本原理

再生码的描述如下：将原始文件编码后存储到n个节点中，每个节点存储大小为α。当一个节点失效时，新节点连接剩余n-1个节点中的d个节点（k≤d≤n-1），从每个节点下载大小为β（β≤α）的数据进行修复，即修复带宽为γ=d×β。再生码的参数集可表示为{n， k， d， α， β， B}，其平均修复带宽γ小于文件大小B。再生码的编码、再生及重构过程如图5所示。

随着每个节点的存储量的提高，节点修复时需要下载的数据量将降低，通过在信息流图上求最小割界的方法，给出了节点修复带宽消耗的下界曲线，而再生码正是在存储开销α和修复带宽γ的最优曲线上。如图6所示，最优曲线上存在两个极值点，分别代表最优存储效应和最小修复带宽效应，达到这两个极值点的编码称为最小存储再生码（MSR）和最小带宽再生码（MBR），已有一些明确的编码实现[18]。理论上，当d=n-1时，再生码的修复带宽达到最小值。

3.2再生码技术的瓶颈及前景

虽然理论上再生码可以达到最优的存储开销和修复带宽，但由于它依赖于复杂的参数和晦涩难懂的数学理论，其实现方式非常复杂。现有的再生码大多在有限域GF（2w）上进行域元素的多项式运算[18]。计算机处理中，加法较为简单，但乘法和除法却非常复杂，甚至需要借助离散对数运算和查表才能实现。这使得再生码的编解码计算开销大，无法适应存储系统对计算效率的要求。很多研究都表明，设计一种结构简单、计算复杂度低的策略至关重要。文献[19]中分析了3种再生码：随机线性网络码（RL）[20]、精确线性码（EL）[21]和生成矩阵码（PM）[22]。其中，PM码利用一种紧凑的表示方式和高效的编解码算法大大提高了编解码速率，然而与纠删码相比，PM码仍需要更长的计算时间。

再生码作为对纠删码的改进，具有很好的理论支撑。但目前提出的大多数再生码、编解码复杂度较高且码率较底。如何提出码率较高并且复杂度低的编码策略就很有意义。深圳市融合网络技术实验室在该领域进行了深入研究，并取得了一定的研究成果：1）提出BASIC[23]编码框架，利用一种新颖的卷积形式来表示编码运算过程，可以将有限域运算转化为GF（2）内简单的移位和异或操作；2）提出一种改进的Zig-Zag编码[24]，采用移位和异或的Zig-Zag解码算法，避免解码时所需要的复杂计算，达到了最低的编解码复杂度。这些编码都可以应用在再生码的构造上，以更好地实现码率较高并且复杂度低的编码。

对于再生码编码策略的未来研究方向，应结合安全问题、网络拓扑和磁盘输入输出（I/O）复杂度进行设计，从而使再生码更为实用。

4 基于局部可修复码的容错

技术

除再生码外，局部可修复码技术（LRC）[25]可以通过增加本地数据实现修复带宽的降低。文献[25]给出了修复局部性r、编码距离d、每个节点的存储大小α以及存储编码长度n之间的权衡。Facebook在HDFS中实现了LRC技术[4]，微软也在Azure上添加了LRC技术[26]。

文献[4]给出了LRC技术的一种实现：如图7，原始文件被等分成10个数据块，通过RS编码生成4个冗余块，图中显示为4个绿色方框。为降低修复带宽，在RS码基础上进行二次编码产生3个额外的冗余块，标记为S1，S2和S3，图中显示为3个橙色的方框。S1是由前5个数据块编码产生，S2是由后5个数据块编码产生，这两个由局部原始数据块编码产生的冗余块称为本地校验块。而S3则是由4个冗余校验块编码产生，称为隐式校验块。实际存储中，我们将10个原始数据块标记为c1，c2，...，c10，将7个冗余块标记为c1’，c2’，...，c7’，存放在7个不同的节点。当1个数据块丢失时，只需要1个额外的冗余块和4个数据块即可修复失效数据，与传统纠删码相比，修复带宽降低了大概一半。

从图7可以看出LRC技术以额外的14%存储开销为代价，降低RS码的修复带宽。但其编码方式仍是RS码，因此编码效率没有提高。另外，LRC编码不满足MDS特性，系统还需要增加额外信息标示二次编码数据。当修复一个节点故障时，LRC具有很好的修复局部性，但修复两个或两个以上的节点故障时就需要连接k个节点，修复带宽与纠删码相同，仍是失效数据的k倍。随着存储系统规模变得越来越大，出现两个或者多个故障的几率也随之增大。

除此之外，针对大数据存储系统中的容错修复问题，我们不断对存储编码的构造方式进行改进[27-28]，以获得更低的冗余开销和更高效的修复性能。

5 结束语

介绍了大数据环境下的可靠存储技术，并针对分布式存储系统，介绍多种容错策略及相关技术。基于复制的容错技术冗余度大，性能提升艰难，很多研究者将目光聚集于基于纠删码的容错技术。而再生码和局部可修复码通过适量增加存储开销，有效降低了纠删码的修复带宽。

这些容错策略在容错能力、计算效率、存储利用率等方面都存在不同程度的缺陷，如何平衡这些影响系统可靠性的因素，设计出容错能力、计算效率及存储利用率更高的容错策略，仍是未来很长一段时间内值得不断深入研究的问题。

第15篇

科研人员针对计算机网络设计，以及计算机网络设计的建设，总结出以下设计原则，对已规范和知道计算机网络可靠性的优化，这些原则起到了重要作用。原则一：按照国际设计标准规定，借助开放式的计算机网络体系结构，将异构系统进行连接，或者将异种设备相连接。这一设计原则具扩展与升级的能力。原则二：计算机网络可靠性的设计，其实是将设计的先进、成熟，以及使用与通用等特性的完美结合。计算机网络技术的成熟和先进，首先需要将网络拓扑结构的实用性与通用性相结合。原则三：计算机网络的互通能力要强，可以实现多种通信协议。原则四：计算机网络要有较高的安全性与可靠性，同时还要具备冗余能力以及容错能力，管理性要强，此外网络管理软件要现金，选择的网络设备要支持SNMP和CMIP。原则五：选择的计算机网络链路的截止一定要保证质量，如此才能够保证主干网足够大的带宽，且实现网络良好的响应速度。原则六：保护当下对计算机网络的投资，对现有资源进行充分利用，合理的分配硬件设施、网络布线系统，合理的调用网络操作系统与网络应用软件。原则七：计算机网络的可靠性，在设计过程中要尽可能的提高性价比。

2计算机网络可靠性优化的方法

通常从两方面着手，来改善计算机网络的可靠性。一方面，提高计算机网络的可靠性是从相关的部件着手；另一方面，则是增加计算机网络相应的冗余部件，这样不但使计算机网络功能的需求得到满足，而且，也极大的提高了计算机网络的可靠性。此外，这种形式也提升了计算机网络建设的成本投入。一般，计算机网络可靠性的优化方法，通常采用的方法分别是试凑方法和分层处理方法。

2.1关于计算机网络优化的试凑方法

关于试凑方法，指的是将适合计算机网络可靠性要求的方法研究出多种，然后通过比较各个方法所需要的费用来选择。一旦出现这种情形，我们一般情况下，都会在多个设计方案中，选出比较好的方案，或者通过对多个方案的比较，选择一个既省时又节省费用的方案。如若费用充足，可以对其设计相应的冗余，这样不仅可以提高和加强网络的可靠性，同样也可以对内容进行扩展，为进一步升级奠定基础。因此，计算机网络的可靠性在优化时极为重视这个环节。

2.2关于计算机网络优化的分层处理方法

计算机网络首先是一个多层次的系统，对计算机网络可靠性的要求，换言之就是对各个层次的可靠性的要求。由此，关于计算机网络优化的分层处理方法，其作为由美国国防部提出的完整方案倍受重视。分层处理方法将计算机网络分为4个层面，分别是服务层、逻辑层、系统层以及物理层等层次，在对每个层次的可靠性通过具体的测度指标定义之后，再对可以提高可靠性的技术与保障措施进一步规定。不过，关于计算机网络优化的分层处理方法的应用，如何进行分层，如何对每个层次进行协调，以最终保证可靠性测度指标达到最佳效果，依然是我们未来需深入研究的一个重要课题。

2.3关于计算机网络可靠性设计策略

计算机网络的可靠性设计策略，涵盖了容错性设计策略和双网络冗余设计策略，以及网络层次和体系结构设计策略。其中计算机网络的容错性设计要遵循并行主干，及双网络中心的原则为指导；双网络冗余设计策略，指的是在单一的计算机网络上，增加另外一种备用的网络，借助计算机网络的冗余，解决计算机网络的容错。此外，网络层次和体系结构设计策略等在计算机网络结构的可靠性的优化过程中起到了重要的作用。

3结论

容错技术论文范文

第1篇

第2篇

第3篇

第4篇

第5篇

第6篇

第7篇

第8篇

第9篇

第10篇

第11篇

第12篇

第13篇

第14篇

第15篇

精品推荐