讓企業永續經營的6個步驟
來源:用戶上傳
作者: 潘 蓉
?。ㄅ巳兀┝己玫臏蕚涫亲钣行У谋Wo措施。對于那些支持企業核心業務正常運轉的關鍵信息系統,進行周密的準備,即建立完善的業務連續性管理計劃是非常必要的。
從8月15日開始,北京、上海、濟南、廣州、重慶等地的中國工商銀行的網絡數度陷入“癱瘓”:網上銀行無法登錄,柜臺業務和ATM處理速度緩慢或者中斷。由于系統出現問題,業務無法辦理,導致很多營業網點出現排長隊現象。工商銀行后來解釋了出現故障的原因是由于當日購買基金、發放養老金和工資的業務量太大導致系統壓力驟增,但無論原因到底是什么,這件事至少表明工商銀行在確保業務連續性上有所欠缺。
事實上,因為信息系統癱瘓影響業務正常運轉我們已經不是第一次聽到,比如首都機場就曾因離港系統和行李系統出現故障,影響了多個航班的進出港。如今,信息系統的使用大大提高了組織信息處理和業務運行的效率。然而,由于信息系統的廣泛使用,使得這些信息系統一旦不能正常支持組織的業務,給整個組織的業務帶來的影響越來越大,有時甚至會造成難以估量的損失。正因為業務連續性管理(Business Continuity Management,BCM)對組織的業務和信息安全如此重要,而一旦發生業務中斷所造成的損失又如此巨大,使得對業務連續性的關注已經成為信息安全領域關注的一大焦點。
業務連續性管理的過程
在信息安全管理國際標準ISO 27001(BS7799)中已經建立了信息安全管理體系的模型,其中業務連續性管理(BCM)被作為一個重要部分包括在模型中。去年11月BSI發布了一個新的標準BS25999-1,這是業務連續性管理的最佳實踐標準,相應的認證標準BS25999-2也將在今年出臺。這對于公共基礎設施的提供者,金融電信等信息時代的基礎支撐行業來說,不但有了實踐的指南還有了檢驗的標準。
根據這些最佳實踐指南,業務連續性管理的實施包括一系列企業管理行為,具體實施過程可以分為以下六個步驟,其中核心是制定并實施業務連續性計劃。
下面詳細介紹BCM實施過程中各步驟所需要執行的主要任務。
步驟1: 啟動項目
項目啟動階段的主要工作是為項目分配必需的資源和進行前期的準備工作。項目啟動階段所包括的工作主要有:
1.得到領導層對項目的支持
組織中信息化或信息安全的領導(如CIO或CSO)應參與項目實施,并通過各種形式(如文件、會議等)向組織內所有成員傳達領導層對該項目的重視和支持。最重要的是讓管理層知道組織的真正風險在哪里,這些風險造成的后果是什么,每一項風險會造成的潛在損失有多大。沒有這種理解,管理層對BCM的支持不能落到實處,也不能保證在實施過程對必要的資源、資金和時間方面的投入,最后可能會導致項目實施的失敗。
2.明確項目實施的組織結構和角色責任
項目實施需要合適的人員來完成特定的任務,明確項目實施的組織機構和相關人員的角色責任是項目啟動階段非常重要的一項任務。項目實施的組織機構與組織的規模和涉及的系統有關,一般可以分為項目管理機構和項目實施機構兩種。項目管理機構負責項目實施過程中的決策,項目實施機構負責項目的具體實施,可以進一步細分為損害評估小組、服務器恢復小組、網絡恢復小組、物理/人員安全小組等等。
3.為項目實施分配資源
包括管理機構和實施機構在內的項目成員通過對項目規模、難度等各方面的估計,確定項目實施所需的資源,包括人員、場地、資金和時間等。引入外部的服務提供商是解決資源不足問題的可行辦法。服務提供商可以提供BCM的咨詢服務,也可以解決組織在提高業務連續性方面所需的備用設備、場地、設施等方面的需求。
4.安排項目的實施進度與時間
為使項目能夠順利實施,需要將項目實施劃成分若干階段,并安排每個階段的進度計劃和主要任務。由于業務連續性管理可能會涉及到多個部門之間的協調,而且往往復雜度較高,最好在項目實施進度中留出一定的機動時間,保證整個項目最終完成時間不會改變。
在上述幾項工作完成后,BCM項目已經明確了項目實施的組織機構,明確了角色和職責,安排了所需的資源,制定了項目的實施時間。接下來,項目就可以進入下一步――業務影響分析階段。
步驟2: 業務影響分析
業務連續性管理必須考慮到所有可能發生的安全事故和災難,并對其潛在的損害做出估計,以制定可行的控制策略,進而預防這些事故的發生,而這正是業務影響分析(Business Impact Analysis,BIA)所要關注的方面,它是實施BCM的關鍵性的一步。
對業務安全性的威脅一般可以分為以下三類:
● 來自自然的威脅,如颶風、龍卷風、洪水和火災;
● 來自人類自己的,如操作員錯誤、破壞、植入有害代碼和恐怖襲擊;
● 其他威脅,如設備故障、軟件錯誤、電信網絡中斷和電力故障。
最重要的是找出所有的威脅,分析這些威脅發生的概率,估算對組織業務所帶來的損失。風險評估與分析是進行業務影響分析的常用方法,它收集定性和定量的信息,包括威脅信息、組織脆弱點信息、已有的安全控制信息等,通過風險分析方法得出風險的大小和可能造成的損失。要注意的是,業務影響分析與風險管理并不完全相同,業務影響分析更為關注業務的中斷以及業務中斷所帶來的損失。BIA階段一般包括以下這些任務:
1.確定關鍵業務功能和損失標準
需要確定基本的業務功能,這些業務功能可能包括: IT網絡支持、數據處理、會計、軟件開發、采購、通信等。由于這些業務功能和它們的實施部門之間存在依賴關系,因此在保護和恢復時也應該按照一定的步驟進行。
明確了威脅和確定了關鍵的業務功能之后,就可以對每種威脅造成的影響制定特定的損失標準,需要考慮的因素包括利潤的損失、運行費用的增加、違反合同造成的損失、生產力方面的損失、組織聲望的損失等。這些損失可能是直接的,也可能是間接的,有些是有定量數字的,有些是定性估計的,都應該以合適的方式計入。
2.確定最大容忍時間
確定了組織賴以生存的關鍵系統之后,應根據事故或災難所造成的損失標準估計萬一不幸事件發生時,組織可以容忍的最大時間。一般來說,最大容忍時間可以分為以下幾個級別:
● 無關緊要:30天;
● 正常:7天;
● 重要:72小時;
● 緊急:24小時;
● 關鍵:幾分鐘到幾小時,一般不超過12小時。
3.確定恢復的優先順序
組織內一般包括有多個業務功能,而組織的各種資源是有限的。在發生較大的事故或災難(如電力中斷、地震)時,多個業務功能都可能會受到影響,所以,必須根據各業務功能的關鍵程度和最大容忍時間,確定各業務功能恢復的優先順序,并為關鍵的業務功能優先提供所需要的資源。
步驟3: 確定恢復策略
確定恢復策略指的是確定和指導備用業務恢復運行策略的選擇,以便在指點的恢復時間內恢復信息系統,以支持機構的關鍵業務。
根據業界的實踐,業務中斷所造成的損失是隨著中斷時間的增大而大幅上升的,而恢復業務的費用則隨著恢復時間的縮短而大幅上升。對于組織來說,確定恢復策略的一個關鍵任務就是在業務中斷時間和業務恢復費用之間取得適當的平衡。
從備份站點來看,可以分為冷站(cold site)、暖站(warm site)、熱站(hot site)三種方式。冷站只提供基本的工作環境、電線、空調等,在恢復時要花費很長的時間,可能會有幾個星期;熱站則具有完全的配置,一般使用在分鐘級或小時級的恢復環境下,也最為昂貴。從備份類型來看,可以分為增量備份、差量備份、完全備份傳遞三種方式;從備份數據傳輸方式來看,可以分為手工傳送、電子備份傳送、實時備份等方式。組織還可以選擇與內部或外部機構簽訂互惠協議,或者與設備供應商簽署服務合同。具體選擇時,組織要綜合考慮邏輯性、可行性、經濟性等多方面因素,確定適合自身業務要求的恢復策略。
步驟4: 編制業務連續性計劃
業務連續性計劃(BCP)樣式有多種,但一般都包括以下內容:支持信息、通知/啟動、業務恢復和業務復原。
1.支持信息
支持信息部分提供了重要的背景或相關信息,使得BCP更容易被理解、實施和維護。支持信息部分一般包括以下內容:
● 目的。介紹制定BCP的原因和定義BCP的目標。
● 范圍。說明有哪些部門和運營業務需要實施BCP。另外,BCP所包括的業務中斷范圍也要說明,如計劃可能不會涉及預計持續時間小于四個小時的短期中斷。
● 組織。描述應急團隊的整體結構,包括各團隊的等級劃分、協調機制、角色與職責等。
● 資源需求。人員、設備、技術/數據、安全、運輸、福利和緊急事件的費用。
● 系統描述。對有必要包括在BCP中的IT系統的一般描述,包括系統的架構、現有安全防護措施等。
● 變化記錄。對BCP變更的記錄。
2.通知/啟動
也稱為應急響應。該部分定義了在探測到系統中斷或緊急情況發生或即將到來時采取的初步行動,如通知恢復人員、評估系統損害和實施計劃的活動。一般包括以下內容:
● 告知規程。包括告知樹、告知信息、通信方法等。
● 損害評估。評估事件可能帶來的業務影響和損害。
● 計劃的啟動。計劃的啟動條件和恢復策略確定。
3.業務恢復
業務恢復集中于建立臨時IT處理能力、修復原系統、在原系統或新設施中恢復運行能力等應急措施。在恢復階段完成后,系統將可以運行并執行計劃中指定的功能。業務恢復計劃一般也被稱為災難恢復計劃(DRP)。
計劃的這一部分應該按照操作手冊的形式編排,由一系列簡單明確的指令構成,這樣恢復團隊可以完全按照這些指令進行恢復操作。各種操作之間的相互關系也必須加以明確說明,所有的指令和說明必須明白無誤,以免因可能引起誤解或不明了而導致時間損失。
4.業務復原
為業務運營復原原有場所或新建場所應采取的步驟等應在此加以說明。需要標明每個團隊負責人的責任和任務,一般包括:
● 提供基礎設施,如電力、辦公設備等。
● 系統安裝,包括軟硬件。
● 測試被恢復系統的運行。
● 將應急系統中的運行數據上載到被恢復系統中。
● 關閉應急系統。
● 應急場所中敏感信息與材料的處置。
● 其他操作。
步驟5: 測試和演練計劃
技術、業務方法以及員工角色和責任的變化都將影響和降低業務應急計劃的效率并最終影響到機構的準備狀態。因此,通過對業務應急計劃的測試來測量其可用性和有效性是很重要的。測試還將使員工熟悉恢復站點的位置以及中斷期間所需的恢復規程。測試的目標是確保機構在啟動業務連續性計劃后能夠按照計劃可靠、及時和有效地恢復運行。
測試的過程需要進行詳細的規劃,測試計劃還應該包括每項測試的詳細時間表和測試的參與者。測試計劃還應該清晰地描述測試范圍、場景和后勤。場景可以選擇為最糟糕的事故或最有可能發生的事故,并盡量模仿真實情況。
有兩種基本的演練方式:
● 課堂演練 課堂演練的參與者在桌面上對規程進行排演而不實際進行恢復操作。在兩種演練類型中課堂演練是最基本和最經濟的,應該在執行功能演練之前執行。
● 功能演練 功能演練比桌面上的演練更進一步,要求虛構事件。功能演練包括模擬和戰術演練。通常會為扮演外部機構的角色演員寫好腳本或者有真正的相關機構或供應商參與。功能演練可以包括針對備用站點的實際配置和(或)系統切換。
組織對其業務連續性計劃一年至少要測試一次。管理層應該參與到測試中并熟悉其在計劃啟動時的角色和責任。
步驟6: 維護與更新計劃
業務連續性計劃必須周期性地加以檢查和維護。為了使其更加有效,計劃必須維持在能夠正確反映系統需求、規程、機構架構和策略的就緒狀態。計劃應該至少每年進行一次針對正確性和完整性的檢查,一旦有新的系統、新的業務流程或者新的商業行動計劃加入企業的生產系統或者信息系統,引起企業整體系統發生變化時,就更應該強制啟動這種檢查程序。某些部分應該得到更頻繁的檢查,如聯絡清單。根據系統類型和重要程度的不同,對計劃內容和規程的評估可能會更加頻繁。計劃的檢查至少要關注以下內容:
● 運行需求;
● 安全需求;
● 技術規程;
● 硬件、軟件和其他設備(類型、規格和數量);
● 團隊成員的姓名和聯絡信息;
● 供應商,包括備用和離站供應商協調人的姓名和聯絡信息;
● 備用和離站設施需求;
● 關鍵記錄(電子的或硬拷貝)。
每一次在執行這種檢查程序時,最好是與對BCP的改進相互結合。例如,在測試過程中發現的問題、組織為了實現連續性對機構所做的調整或者在保持業務連續性測試時發現了更好的行動方式和計劃等等。因此,BCP的維護應該是變化和改進的結合與不斷促進。另外,BCP中可能包含有潛在的敏感操作和個人信息,所以對BCP的分發應該根據需要進行標記和控制。(本文作者為BSI中國公司的咨詢顧問)
相關
業務連續性管理的關鍵點
在實行BCM過程中,以下因素是組織應重點考慮的:
● 爭取管理層的支持和參與。沒有管理層的支持,業務連續性計劃的制定和實施都是十分困難的,很有可能會流產。
● 建立業務連續性管理文化。通過培訓和意識教育,使業務連續性管理成為企業核心價值和有效管理的一部分。
● 業務連續性計劃團隊要有明確的組織結構,角色和責任應明確、清晰,要對相關人員進行培訓。如果參與人員不能清楚地知道自己該做什么,災難發生時只能是一片混亂。
● 恢復策略的確定要綜合考慮恢復成本與災難損失,在其中取得一個適當的平衡點。超過損失的恢復是毫無意義的。
● 業務連續性計劃包括的各種規程要步驟清楚、操作詳細,確保實施人員拿到規程后,能立刻開始操作。不清楚的規程只會延誤恢復的時間。
● 業務連續性計劃要定期進行測試、演練,總結缺陷并進行更新,一般至少為一年一次。確保計劃準確和不斷改進也是非常重要的。測試計劃要仔細斟酌,不要讓演習變成一場事故。
轉載注明來源:http://www.hailuomaifang.com/8/view-1077538.htm