你的位置:首頁 > 電源管理 > 正文

一文讀懂“容錯”與“冗余”技術

發(fā)布時間:2020-06-05 責任編輯:wenwei

【導讀】容錯控制的研究雖然面臨著空前的挑戰(zhàn),但近些年來,相關研究領域,如魯棒控制理論,模糊控制,神經(jīng)網(wǎng)絡控制研究的不斷深入和發(fā)展,也給容錯控制的研究帶來了良好的機遇,提供了充分的條件。
 
而計算機控制技術、人工智能等技術的飛速發(fā)展,使得容錯控制技術在實際工程中應用的可能性變得越來越大。
 
一、容錯
 
提高系統(tǒng)的可靠性一般有兩種辦法:
 
1、采用縝密的設計和質(zhì)量控制方法來盡量減少故障出現(xiàn)的概率。
 
2、以冗余資源為代價來換取可靠性。
 
利用前一種方法來提高系統(tǒng)的可靠性是有限的,要想進一步的提高必須采用容錯技術。
 
容錯控制技術在國外發(fā)展的比較早,是由馮·諾依曼提出的。隨著八十年代微型計算機的迅速發(fā)展和廣泛應用,容錯技術也得到了飛速的發(fā)展,容錯技術被應用到各個環(huán)境中。我國的容錯技術現(xiàn)在發(fā)展的也很迅速,一些重要的工作場合如航天、電廠等現(xiàn)在都采用了容錯技術。
 
所謂容錯:就是容許錯誤,是指設備的一個或多個關鍵部分發(fā)生故障時,能夠自動地進行檢測與診斷,并采取相應措施,保證設備維持其規(guī)定功能,或犧牲性能來保證設備在可接受范圍內(nèi)繼續(xù)工作。
 
錯誤一般分為兩類:
 
第一類是先天性的固有錯,如元器件生產(chǎn)過程中造成的錯、線路與程序在設計過程中產(chǎn)生的錯。這一類的錯誤需對其拆除、更換或修正,是不能容忍的。
 
第二類的錯后天性的錯,它是由于設備在運行中產(chǎn)生了缺陷所導致的故障。這種故障有瞬時性、間歇性和永久性的區(qū)別。
 
容錯技術是提高系統(tǒng)可靠性的重要途徑。常采用的容錯方法有硬件容錯、軟件容錯、信息容錯和時間容錯。
 
1、什么叫“智能容錯”
 
智能容錯IFT(Intelligent Fault-Tolerance):就是設備在運行過程中一個或多個關鍵部件發(fā)生故障或即將發(fā)生故障之前,利用人工智能理論和方法,通過采取有效措施,對故障自動進行補償、抑制、消除、修復,以保證設備繼續(xù)安全、高效、可靠運行,或以犧牲性能損失為代價,保證設備在規(guī)定的時間內(nèi)完成其預定功能。
 
智能容錯技術的構成方法可以采用以下三步來實現(xiàn):
 
(1)建立系統(tǒng)的設計目標;
(2)設計智能容錯處理機構;
(3)根據(jù)設計目標對所作的設計進行評價,如果滿足目標則設計成功,否則將返回第二步進行重新設計,直到滿足設計目標要求。
 
硬件智能容錯 HIFT (Hardware Intelligent Fault Tolerant) 主要采用硬件冗余技術。其基本思想是對設備的關鍵部件配備多重相似或相同部件,一旦檢測和診斷出設備發(fā)生故障就可以立刻切換到備份部件,以達到故障容錯的目的。圖 1 所示為二冗余結(jié)構原理圖:
 
一文讀懂“容錯”與“冗余”技術
圖 1 二冗余結(jié)構原理圖
 
2、硬件智能容錯方式的分類
 
硬件智能容錯按其工作方式可以分為:靜態(tài)冗余、動態(tài)冗余和混合冗余。
 
靜態(tài)冗余容錯是通過表決和比較屏蔽系統(tǒng)中出現(xiàn)的故障,如圖2所示:
 
一文讀懂“容錯”與“冗余”技術
圖 2 三模冗余(靜態(tài)冗余)TMR系統(tǒng)結(jié)構圖
 
靜態(tài)冗余容錯的主要特點是:
 
(1)由于故障被屏蔽,所以不需要識別故障;
(2)容易與無冗余系統(tǒng)進行轉(zhuǎn)換;
(3)所有模件都消耗能量。
 
動態(tài)冗余的主要方式是多重模塊相繼運行來維持設備正常工作。當檢測到工作模塊出現(xiàn)故障時,一個備用模塊立即接替故障模塊并投入工作。
 
動態(tài)冗余容錯控制的主要特點是:
 
(1)僅有一個模件消耗能量;
(2)模件數(shù)目可隨任務而改變,不會影響系統(tǒng)工作;
(3)轉(zhuǎn)換裝置和檢測裝置中任一故障都會導致系統(tǒng)失效。
 
一文讀懂“容錯”與“冗余”技術
圖 3 動態(tài)冗余容錯控制結(jié)構圖
 
混合冗余兼動態(tài)冗余和靜態(tài)冗余之所長,通常用H(n,k)來表示,如圖4所示。圖中的V為表決器,n表示模塊的總數(shù),k代表以表決方式實現(xiàn)靜態(tài)冗余的模塊數(shù),而其余N-K個模塊則作為表決系統(tǒng)中模塊的備份。當參與表決的k個模塊中(通常k>=3)有一個模塊出現(xiàn)故障時,備份就替代該模塊參與表決,維持靜態(tài)冗余系統(tǒng)的完整。當所有備份都被替換完后,系統(tǒng)就成為一般的表決系統(tǒng)。
 
如在硬件構成的邏輯系統(tǒng)中表決器是由開關電路實現(xiàn)的,而軟件中表決需要通過軟件斷言SA(Software Assertions)來實現(xiàn)。軟件斷言就是當軟件在宿主系統(tǒng)中運行時,對其進程或功能的正確與否做出判斷的條件。
 
一文讀懂“容錯”與“冗余”技術
圖 4  H(n,k)系統(tǒng)結(jié)構
 
3、智能容錯的故障處理方式
 
智能容錯技術是一種外延廣博的綜合性技術。為了消除故障的影響,可以采用以下處理方式來實現(xiàn):
 
(1)故障檢測
 
通過故障檢測可以迅速準確地對故障進行定位。故障檢測是容錯的基礎。故障檢測方式可分兩種:脫機檢測,即進行檢測時系統(tǒng)不能做有用的工作,聯(lián)機檢測,即檢測與系統(tǒng)工作同步進行,它具有實時檢測的能力。
 
(2)故障定位
 
在給定的故障條件下,找出故障原因,確定發(fā)生故障元件的具體位置。定位的詳細程度視具體問題而定,一般定位到進行系統(tǒng)重構所需的最小單元。
 
(3)故障屏蔽
 
故障屏蔽能夠把故障效應掩蓋起來,以防止故障對輸出產(chǎn)生影響。故障屏蔽只能容忍故障,而不能給出故障警告,當冗余資源耗盡時,將使設備產(chǎn)生錯誤輸出。
 
常用的故障屏蔽方法有多模表決冗余和屏蔽邏輯兩種,多模表決冗余就是在設備的多個裝置中,只要至少有一個裝置正常工作,系統(tǒng)就能完成其功能;屏蔽邏輯主要用于門級電路的故障屏蔽,它能有效地限制邏輯線路門輸出的臨界故障與亞臨界故障。
 
(4)故障限制
 
故障限制就是規(guī)定故障的傳播范圍,把故障效應的傳播限制到某一區(qū)域內(nèi)。故障限制可以用軟件和硬件來實現(xiàn)。
 
(5)故障隔離
 
故障隔離就是將故障隔離起來以防其進一步擴散和對設備產(chǎn)生影響。
 
(6)故障修復
 
當設備發(fā)生故障經(jīng)檢測和定位后,就可采取更換、修理、自修復等方式使設備復原。
 
(7)系統(tǒng)重組
 
當設備發(fā)生故障時,通過任務的重新分配或內(nèi)部器件的重新組合,以切除或替換故障部件。
 
(8)系統(tǒng)重構
 
重構就是把修復的模件重新加入到系統(tǒng)中去。
 
(9)系統(tǒng)恢復
 
系統(tǒng)恢復就是經(jīng)過屏蔽、重組等,使故障恢復到故障前的工作狀態(tài),不丟失或少丟失信息,并保證下一步的正常運行,系統(tǒng)恢復通常用軟件實現(xiàn)。
 
4、智能容錯的實現(xiàn)方法
 
智能容錯的實現(xiàn)方法分為: (1)故障信號檢測;(2)故障特征識別;(3)故障狀態(tài)預測;(4)故障維修決策;(5)故障容錯控制。
故障容錯的目的在于針對不同的故障源和故障特征,采取相應的容錯處理措施,對故障進行補償、消除或自動修復,以保證設備繼續(xù)安全可靠運行,或以犧牲性能損失為代價,保證設備在規(guī)定時間內(nèi)完成其基本功能。結(jié)構框圖如圖5所示。
 
一文讀懂“容錯”與“冗余”技術
圖 5 故障容錯控制過程框圖
 
二、冗余技術
 
所謂冗余(Redundancy)就是多余資源,冗余技術可供用來處理故障,冗余技術分為:
 
(1)硬件冗余法:
 
硬件冗余HR(Hardware Redundancy)就是依靠附加硬件的冗余性和互補性來實現(xiàn)故障容錯,附加硬件通常采用儲備形式,當設備某個或某些關鍵部件發(fā)生故障后,可以用備份硬件替代故障部件,以削弱或消除故障的影響。
 
(2)軟件冗余法:
 
軟件冗余SR(Software Redundancy)可以通過增加軟件功能來實現(xiàn),其中包括修改容錯控制策略、重新配置系統(tǒng)軟件、有效地降低設備的運行速度、多模塊并行診斷決策等。
 
冗余附加技術指為實現(xiàn)上述榮譽另外所需的資源和技術,包括程序、指令、數(shù)據(jù)以及存放和調(diào)動他們的空間和通道。他們和硬件冗余中冗余備份一樣,在沒有容錯要求的系統(tǒng)中是不需要的,而在容錯系統(tǒng)中卻是必不可少的。以屏蔽硬件故障為目的容錯技術中,冗余附加技術包括:
 
1)關鍵程序和數(shù)據(jù)的榮譽存儲和調(diào)用;
2)進行檢測、表決、切換、重構、糾錯、復算的實現(xiàn)。在屏蔽軟件故障的容錯系統(tǒng)中,冗余附加件的構成不同。
 
冗余附加件包括:
 
1)獨立設計的相同功能冗余備份程序的存儲及調(diào)用;
2)實現(xiàn)糾錯誤檢測及恢復的程序;
3)為實現(xiàn)容錯軟件所需固化了的程序。
 
冗余、容錯技術發(fā)展現(xiàn)狀伴隨著大規(guī)模和超大規(guī)模集成電路的發(fā)展,硬件可靠性大大提高而價格卻大幅度降低,使采用各種容錯技術在經(jīng)濟上更易接受。
 
容錯技術應用范圍擴展于銀行事務處理及各種實時控制系統(tǒng),甚至許多通用計算機系統(tǒng)也采用了容錯技術。在七八十年代,容錯技術應用已經(jīng)很廣泛,例如:1975年的美國貝爾實驗室的3A號ESS處理系統(tǒng)和美國 TANDEM16容錯事務處理系統(tǒng):1976年的美國AMDAHL470V/6 容錯通用計算機和 1978 年容錯空間計算機 FTSC;1979年BIM推出容錯的4300通用計算機系列;1980年容錯多處理機 FTMP 及軟件實現(xiàn)的容錯計算機sift研制成功等等。
 
隨著電子交易的日益廣泛,出現(xiàn)了商用容錯計算機市場和以分布式為體系的容錯計算機系統(tǒng)。容錯的VLSI技術和人工智能在容錯技術上的應用——計算機故障診斷專家系統(tǒng),給冗余、容錯技術的發(fā)展增添了新的活力。
 
冗余、容錯技術理論的研究,也是相當活躍的。1952 年,馮·諾依曼作了一系列關于用重復邏輯模塊改善系統(tǒng)可靠性的報告;1956 年,他發(fā)表了論文《概率邏輯及用不可靠元件設計可靠的結(jié)構》。
 
1971 年以來,IEEE 計算機學會容錯技術委員會每年召開一次國際容錯計算學術會議;1987 年中國計算機學會成立了容錯計算專業(yè)委員會等等?;谌蒎e控制(TFC)基本思想,F(xiàn)TC 的研究主要有被動容錯控制(Passives)和主動容錯控制(Activate)兩種途徑。
 
主動容錯控制是在控制系統(tǒng)故障檢測與 FDD(Fau1t Detection and Diagnose)的基礎上,當 FDD 環(huán)節(jié)檢測出系統(tǒng)故障后,重新調(diào)整控制器參數(shù),甚至改變控制器結(jié)構,在保證系統(tǒng)穩(wěn)定的前提下,盡量恢復系統(tǒng)故障前的性能。被動容錯控制是設計對故障具有容忍能力的強魯棒控制器,被動容錯控制的研究可以充分利用魯棒控制技術的研究成果,且不受 FDD 發(fā)展水平的限制,所以對于被動容錯控制的研究取得的成果較多。
 
1、主動容錯控制
 
主動容錯控制一般需要兩個基本步驟:控制系統(tǒng)的故障檢測、診斷與隔離及控制系統(tǒng)重構。
 
控制系統(tǒng)故障檢測、診斷與隔離是在現(xiàn)代控制理論、可靠性理論、數(shù)理統(tǒng)計、信號處理技術、模式識別技術,以及人工智能和計算機控制技術等技術基礎上的一門應用型的邊緣學科,F(xiàn)DD 技術是容錯控制重要的支撐技術之一。
 
由于控制系統(tǒng) FDD 問題本身的復雜性和相關領域技術水平的限制,雖然人們對它的研究己達到了一定的水平,但至今仍沒有解決這一問題特別有效的方法。
 
目前的控制系統(tǒng)FDD研究主要是沿著基于模型和基于知識兩種途徑展開。
 
控制系統(tǒng)重構的方法主要有:控制律重新調(diào)度、控制器重構設計和模型跟蹤重組控制,控制律重新調(diào)度的基本思想是,在離線的情況下計算出各種故障條件下所需的控制律增益參數(shù),存儲在計算機中,系統(tǒng)根據(jù) FDD 單元所給出的結(jié)果,選擇合適增益參數(shù),實現(xiàn)對各種故障的容錯控制;控制器重構設計是根據(jù)故障系統(tǒng)的新環(huán)境,重新設置系統(tǒng)的工作點,并給出可改善系統(tǒng)性能的新控制器,現(xiàn)有的控制器重構方法主要有基于直接狀態(tài)反饋或輸出反饋的方法,以及基于動態(tài)補償器的設計方法等;模型跟蹤重組控制的基本原理是采用模型參考自適應控制的思想,使得被控過程的輸出自適應地跟蹤參考模型的輸出,因此這種容錯控制不需要FDD單元。
 
在主動容錯控制方法中,能夠較好地將FDD環(huán)節(jié)與系統(tǒng)重構相結(jié)合的是基于人工智能的容錯控制方法。在容錯控制中所運用的人工智能方法主要是人工神經(jīng)元網(wǎng)絡 ANN(Artifictial Neural Network),利用 ANN 對非線性特性的任意逼近能力和ANN所具有的從樣本中學習、歸納和推理的能力,通過訓練,使ANN能準確地估計出故障的大小,在此基礎上再通過故障補償來實現(xiàn)主動容錯控制。
 
被動容錯控制在目前的容錯控制研究中,因為不受控制系統(tǒng) DFD 環(huán)節(jié)的限制,被動容錯控制相對于主動容錯控制要更容易實現(xiàn),已有的可以實現(xiàn)被動容錯控制的主要方法有:
 
完整性控制器設計、同時鎮(zhèn)定和可靠鎮(zhèn)定。
 
完整性控制(Intgearl Contron)的概念由Niederlinski 在 1971年提出,完整性控制是研究最早的一種容錯控制技術,因為控制系統(tǒng)中傳感器和執(zhí)行器是最容易發(fā)生故障的部件,所以完整性控制具有很高的應用價值,在控制理論中,稱多變量系統(tǒng)中出現(xiàn)故障時仍能保持系統(tǒng)穩(wěn)定性的控制器為完整性控制器,完整性控制器設計是多變量系統(tǒng)中特有的問題;
 
多模型設計方法又稱同時鎮(zhèn)定問題,自從Ackermann,Sakes 和Vidyasagar 等人提出來以后,己經(jīng)成為容錯控制的一個重要研究方向,同時穩(wěn)定容錯控制的設計方法是力求尋找一個公共的狀態(tài)反饋控制器,使之能夠同時穩(wěn)定盡可能多的故障情況下的系統(tǒng)模型,同時兼顧到系統(tǒng)的動、靜態(tài)品質(zhì)特性的要求;使用多個補償器進行可靠鎮(zhèn)定的概念是由 Silage 于1980年最早提出,可靠鎮(zhèn)定實際上是關于控制器的容錯問題。
 
與被動容錯控制相比較,主動容錯控制具有更多的優(yōu)點。從理論上講,被動容錯控制是故障情況下的強魯棒控制,主動容錯控制是故障情況下的強自適應控制。被動容錯控制即使在系統(tǒng)正常的情況下控制率也要滿足故障條件下的要求,這在系統(tǒng)正常時顯然是一種過高的要求,設計未免過于保守,必然要以犧牲性能指標為代價。另外,在預想故障數(shù)目較多時,被動容錯控制問題可能根本沒有解,所以被動容錯控制有較大的局限性。
 
基于控制系統(tǒng)FDD的主動容錯控制實質(zhì)是一種強自適應控制,它通過實時地對系統(tǒng)進行故障檢測與診斷,當檢測出系統(tǒng)故障后,根據(jù)不同的故障采取相應的措施,保證系統(tǒng)的穩(wěn)定性和維持一定的性能指標。主動容錯控制所用的主要方法是控制重構和故障補償,前者需要根據(jù)故障重新設計控制器,后者則是利用故障的信息確定一個控制補償量,目的都是力圖使故障后的系統(tǒng)盡量接近甚至等價于原系統(tǒng)。
 
對于演變速度較慢的所謂軟故障,多模自適應方法比較適合,但多模自適應方法中存在較多的算法上的問題,限制了這種方法的使用。
 
2、容錯控制研究中需要解決的主要問題
 
盡管控制系統(tǒng) FDD 和 TFC 技術的研究在理論上己取得了較為豐富的成果,但距離實際工程應用的要求還有相當大的差距,理論上也還有許多問題有待人們?nèi)パ芯亢吞剿鳌?/div>
 
本文主要研究了實時系統(tǒng)多機冗余、容錯系統(tǒng)的故障檢測與診斷、控制系統(tǒng)重構、容錯實時運行庫技術以及容錯控制在工程中的應用等問題,而在目前的研究中,上述領域主要存在的問題分述如下:
 
(1)控制系統(tǒng)故障檢測與診斷中存在的問題:
 
控制系統(tǒng)故障的模型是從理論上進行FDD 研究的前提,但現(xiàn)有故障建模方法簡單,與實際系統(tǒng)故障具有的復雜性和多樣性成為一對急待解決的矛盾。目前還沒有一個在 FDD 和 FTC 中比較統(tǒng)一的故障表示方法。就拿CPU 測試來說,多數(shù)的結(jié)構測試法需要詳細的系統(tǒng)邏輯電路圖,并在此基礎上建立故障模型。
 
結(jié)構測試法通過驗證電路中沒有任何符合故障模型的故障存在,來說明電路中沒有影響電路功能的實際物理故障存在。由于微處理器是一個輸入、輸出引線數(shù)目有限,內(nèi)部結(jié)構異常復雜的大規(guī)模集成電路,很難在邏輯門這一級確立準確的故障模型;另一方面受到引出腳數(shù)目的限制,使得故障的可控制性與可觀察性大大降低;此外控制邏輯部分與數(shù)據(jù)處理邏輯部分都在一塊芯片上,不能預先假定哪一部分總是好的。
 
(2)系統(tǒng)重構方面存在的主要問題:
 
目前的系統(tǒng)重構問題研究較少?,F(xiàn)有的運用廣義逆的方法、基于狀態(tài)反饋或輸出反饋、特征值和結(jié)構配置等方法,僅是從數(shù)學模型角度將系統(tǒng)恢復,而不是從系統(tǒng)性能角度恢復,所以重構后的系統(tǒng)魯棒性不能保證,有時甚至穩(wěn)定性也難以保證。而且,多數(shù)重構對系統(tǒng)模型的要求也很苛刻。就目前的控制系統(tǒng) FDD研究水平來看,想獲得故障后系統(tǒng)模型的全部信息是相當困難的,所以尋求故障后控制完全重構是理想化的。由于故障的大小是未知的,所以在設計時進行穩(wěn)定性分析是非常困難的,只能對預想的故障進行穩(wěn)定性分析。
 
(3)實時系統(tǒng)和容錯技術相結(jié)合存在的主要問題:如何將軟件容錯技術有機地融合到實時系統(tǒng)中去,具有與發(fā)展軟件容錯技術本身同樣重要的地位。
 
目前,盡管實時系統(tǒng)的軟件容錯技術已經(jīng)取得了非常巨大的進步,但在實時系統(tǒng)中并未得到充分地應用。
 
(4)用戶在冗余、容錯系統(tǒng)設計中存在的主要問題:應用程序設計者在考慮如何實現(xiàn)應用軟件的功能要求同時,要兼顧軟件容錯,這不可避免地,甚至是成倍地加大了應用系統(tǒng)開發(fā)的工作量,增加系統(tǒng)的復雜程度,反而加大應用出錯的可能性。應用層容錯將容錯機制的實現(xiàn)和應用程序融為一體,當需要在同一操作系統(tǒng)上開發(fā)新的應用時,所有工作必須從頭開始,不符合工程實際中提高軟件重用性,開發(fā)低成本、高可靠系統(tǒng)的大趨勢。
 
(5)容錯控制理論運用于工程實際時需要解決的問題:容錯控制在理論研究上比較困難,在實際工程中的應用更少。由于不同的工程領域所遇到的問題有很大的差異,不可能以一個統(tǒng)一的框架來解決所有的問題。理論研究所用的模型和假設同工程實際的差別比較大,這也是容錯控制理論在工程實際中運用所遇到的主要困難。各個領域的工程技術人員,應結(jié)合自己的工程實際,選擇相應的控制方案。因此,統(tǒng)一系統(tǒng)架構,構建支持多種主流冗余、容錯模式的運行庫,對工程設計人員來說是很重要的。
 
來源:可靠性技術交流
 
 
推薦閱讀:
 
增強的電動助力轉(zhuǎn)向系統(tǒng)設計,更可靠,更節(jié)能!
電源設計經(jīng)驗:低成本高效益解決方案是這樣煉成的!
電源管理:不僅僅是設計一個電源
電流驅(qū)動電路一些鮮為人知的應用
一文讀懂這款高集成度功率IC產(chǎn)品
特別推薦
技術文章更多>>
技術白皮書下載更多>>
熱門搜索
?

關閉

?

關閉