您好, 訪客   登錄/注冊

華為LTE網管服務器容災方法的研究與應用

來源:用戶上傳      作者:

  [摘要]LTE網絡結構較之前的網絡更加扁平化,網絡維護管理只能通過網管服務器進行。網管服務器更加重要,所以需要更高效可靠的網管服務器的容災方法。
  [關鍵詞]LTE 4G 網管服務器 容災
  隨著數據通信與多媒體業務需求的發展,適應移動數據、移動計算及移動多媒體運作需要的第四代移動通信開始興起,因此有理由期待這種第四代移動通信技術給人們帶來更加美好的未來。4G是第四代通訊技術的簡稱,G是generation(一代)的簡稱。4G系統能夠以100Mbps的速度下載,比目前的撥號上網快2000倍,上傳的速度也能達到20Mbps,并能夠滿足幾乎所有用戶對于無線服務的要求。另一方面,4G也因為其擁有的超高數據傳輸速度,被中國物聯網校企聯盟譽為機器之間當之無愧的“高速對話”。隨著4G網絡的發展,移動用戶增長更為迅猛。我國4G用戶規模已達到11.49億戶。隨著人們使用手機方式的改變,手機的主要業務已從打電話業務變成數據流量業務。而4G網絡在數據流量業務方面具有很大的優勢。因此,4G網絡受到了運營商格外重視。然而4G網絡更加扁平化,只能通過網管服務器監控維護網絡,所以對網管服務器的容災要求更高。LTE(Long Term Evolution,長期演進)項目是3G的演進,它改進并增強了3G的空中接入技術,采用OFDM和MIMO作為其無線網絡演進的唯一標準。主要特點是在20MHz頻譜帶寬下能夠提供下行100Mbit/s與上行50Mbit/s的峰值速率,相對于3G網絡大大的提高了小區的容量,同時將網絡延遲大大降低:內部單向傳輸時延低于5ms,控制平面從睡眠狀態到激活狀態遷移時間低于50ms,從駐留狀態到激活狀態的遷移時間小于100ms。并且這一標準也是3GPP長期演進(LTE)項目,是近兩年來3GPP啟動的最大的新技術研發項目。經統計發現目前只有板卡級的容災,當板卡發生故障后系統自動倒換到備用板卡,然后人工更換故障板卡。根據4G的網絡特點以及重要性,這樣的容災系統可靠性不高。LTE網管服務器急需設備級容災。
  一、設定目標及目標可行性分析
  目前華為ATAE服務器都有板卡備份,經統計全國范圍內沒有發生過華為LTE網管服務器設備級故障。小組經過討論并確定目標值:實現容災新方法后LTE網管中斷的恢復時長小于30分鐘。
  目標測算:小組成員借鑒新技術、結合現有技術模擬了建立應急容災系統后,小組成員在現有是4套華為LTE網管服務器測試網元數據提取和新建網元,并統計分析了時長。平均網元數量;6774個;平均網元數據提取和新建網元時長:26.7分鐘(為貼近實際情況,考慮各種誤差,需增加10%的冗余時長)。推算時長=26.7x(1+10%)=29.37≈30分鐘(預算時長取近似值不可四舍五入,應采取進一法)。因此,目標可以實現。
  方案對比選擇:圍繞課題,經過頭腦風暴,確定三個可選方案:①基于云平臺的LTE網管服務器容災方法;②基于雙機熱備的LTE網管服務器容災方法;③基于一對多熱備的LTE網管服務器容災方法。
  方案評估標準:小組成員制定了方案的評估標準:①成本:小于5萬;②安全:內外網分離;③倒換時長:小于30分鐘;④建設時長:小于3個月。
  總體方案對比介紹:小組成員對上述三個方案進行了詳細的對比分析。
  方案一:基于云平臺的LTE網管服務器容災方法:
  實現原理:云服務器(Elastic Compute Service,ECS)是一種簡單高效、安全可靠、處理能力可彈性伸縮的計算服務。其管理方式比物理服務器更簡單高效。其核心是虛擬化平臺技術。虛擬化平臺將一定數量的服務器集群虛擬為多個性能可配的虛擬機(KVM),并根據實際資源使用情況靈活分配和調度資源池。
  理論分析與對比:建立LTE網管云容災服務器有兩種方式:①購買使用公有云平臺。②運維部自建云平臺。這兩種方式都要舍棄現有的服務器。
  小組成員對這兩種方式分別進行了評估:購買使用公有云平臺:小組成員經過了解發現聯通公司是公有云運營商,在公有云技術和市場均處于全國領先。小組成員進行了統計分析。
  結果及評估:小組從成本、安全、倒換時長、建設時長等方面進行評估,發成本達到100萬元,安全無法物理層面無法實現內外網分離,因此改方案無法滿足要求。運維部自建云平臺:小組成員查閱各設備制造商的相關技術資料后發現華為的云平臺服務器符合我們的要求。根據華為的報價一套華為E9000云服務器的價格約為600萬元。
  結果及評估:小組從成本、安全、倒換時長、建設時長等方面進行評估,發成本達到600萬元,建設時長達到5個月,因此改方案無法滿足要求。
  方案二:基于雙機熱備的LTE網管服務器容災方法:
  實現原理:雙機熱備特指基于高可用系統中的兩臺服務器的熱備。目前雙機熱備主要有三種形式:單存儲方式、存儲熱備方式、數據同步方式。無論采用哪種方式,都需要新增服務器。目前2G網絡空出一套ATAE服務器,如按照全省4套服務器都實行雙機熱備則還需購買3套服務器,成本約為600萬元。
  結果及評估:小組從成本、安全、倒換時長、建設時長等方面進行評估,發成本達到600萬元,建設時長達到5個月,因此改方案無法滿足要求。
  方案三:基于一對多熱備的LTE網管服務器容災方法:
  實現原理:小組成員在學習磁盤陣列知識中發現在RAID5技術中一塊硬盤可以對多塊硬盤實現備份。受該技術的啟發,小組認為可以用一套設備容災現網的四套服務器。
  小組成員統計了現網服務器的性能:小組成員通過網管工具查看并統計了現有服務器一個星期的運行性能指標。發現現網服務器的平均CPU占用率為39.3%,平均內存占用率為35.9%,不僅可完全勝任現有的網絡規模且仍有冗余。   實驗一:小組成員對部分新建工程期站點進行了跨服務器容災倒換測試。測試步驟:將其中一套網管服務器(IP:172.23.0.2)現網的測試工程期站點斷連,然后將備份數據導出,拷貝到另外一套網管服務器(IP:172.23.0.34),連接網元,網元恢復監控。實驗二:由于GSM網絡在網用戶逐漸減少,全省在逐步進行GSM基站和BSC退服工作。原全省有4套GSM網管服務器,今年年初退服了1套。小組成員發現該服務器與LTE最新的服務器配置完全一樣。這套服務器可以利舊用于華為LTE網管服務器的容災。小組成員用了一根跨機房的飛線將該GSM服務器連接到LTE服務器的交換機,然后進行了容災倒換測試。測試步驟:小組成員選了4個網管服務器上的新建工程期的網元在容災服務器上建立了斷連網元。然而在測試中發現網元無法在容災網管服務器(IP:172.23.0.130)上建立連接。為什么原先新建工程期站點測試可以,現在測試范圍擴大后大部分站點就不行了呢?圍繞著這個問題,小組進行了多次頭腦風暴。通過網管收集數據并進行了統計分析。查看基站的路由發現,由于原先規劃的問題,去往M2000的子網過小,基站數據無法到達容災網管服務器。所以需修改華為LTE基站網管路由的掩碼。經統計表可以看出杭州這一套網管就有6500多個基站需要修改且對應的IPRAN鏈路的IP掩碼也需要修改。即杭州就需要修改數據13000多次,全省則更多,工程量非常巨大。無論是逐個手工修改還是制作批量執行腳本都風險很大。為此小組成員又進行了多次頭腦風暴,根據ATAE服務器特殊性找到了另外一個方法:由于ATAE網管服務器是刀片式服務器。其中OSMU板卡是整個服務器的管理板卡,登錄該板卡可以對U2000板卡的IP進行修改。當現網某套華為ATAE服務器整機發生故障時,將容災服務器的U2000板卡IP修改成故障服務器的相應IP,然后在容災服務器上建立網元連接,即可恢復故障服務器。
  實驗驗證:小組成員在后半夜利用拔出網線的方式模擬LTE服務器整機故障,然后在容災服務器上進行相應的修改IP和連接網元等工作。經測試容災時長在30分鐘以內。結果及評估:小組從成本、安全、倒換時長、建設時長等方面進行評估,發現均滿足要求。最終確定第三種方案“基于一對多熱備的LTE網管服務器容災方法”為最優實施方案。
  二、容災系統建立
 ?。ㄒ唬嵤┮唬喝轂姆掌髋c現網服務器使用網線連通
  ①制作三條網線;②容災服務器與交換機連接兩條網線,一條網線備用。小組成員將三條網線放于機房間的走線架上,按規定綁扎好。容災服務器與LTE網管服務器端交換機采用雙網線連接。為防止形成廣播風暴,在3層交換機上配置了VRRP。小組成員特地多放了一條網線,當出現網線故障時可以快速替換,因此網絡又多了一層保護。③聯網測試:完成后,小組成員使用PING以及內網測速工具LAN Speed Test測試了網絡的性能。網速到達100Mbps。綜上所述,網線數量到達2主1備,滿足鏈路≥2條的要求,滿足網速≥100Mbps。
  (二)對策實施二:建立斷連網元備份
 ?、僭谌轂姆掌鹘?套服務器的斷連網元:小組成員從現網四套網管服務器上導出網元備份,導入容災服務器建立網元并設置為斷連狀態。②定期網元備份:由于目前不是網絡建設的高峰期,小組統計了最近6個月的新增華為LTE站點數。經統計每月平均新建站點約為14個,新增站點數占現網站點數的0.22%左右。③當月新增網元超過60個時啟動緊急網元備份:小組成員研究決定,當某個月新增站點數超過60個時,臨時增加一次網元備份,以確保網元備份率≥99%。
  (三)對策實施三:服務器板卡開啟標準制定
 ?、偃轂姆掌鬈浖姹九c現網服務器保持一致:確保每次網管版本升級和打補丁時同步對容災服務器進行操作。②制定板卡開啟標準流程。③定期網元備份時檢查板卡健康性以及統計板卡開啟時長。小組成員制定了網元備份規范,嚴格規定每次網元備份時統計板卡開啟時間并對每塊板卡進行健康性檢查。④聯網測試:小組成員進行了多次板卡開啟測試:板卡開啟時長≤8分鐘。
 ?。ㄋ模Σ邔嵤┧模喝斯さ箵Q標準制定
  ①制定啟動人工倒換的故障程度標準:小組成員經過頭腦風暴決定當滿足:現網網管斷連;所有機房均無法ping通該服務器;容災服務器能連上時啟動人工倒換。②制定華為LTE網管服務器人工倒換應急容災流程:小組成員經過研究對原來的矢線圖進行優化,作為人工倒換應急容災流程。我們用紅色重點標出了關鍵路線,在實施中必須嚴格控制關鍵路線各個階段的時長。③聯網測試:經過測試人工倒換的時長可以控制在30分鐘以內。
 ?。ㄎ澹嶒烌炞C
  小組成員在后半夜利用拔出網線的方式模擬LTE服務器整機故障,然后在容災服務器上進行相應的修改IP和連接網元等工作。小組成員對全省4套LTE服務器均實施了該方案。實施后小組成員在之后3個月內利用其他割接時段進行了多次測試。均實現了將華為LTE網管服務器應急容災時長降低至30分鐘以內的目標,該新方法穩定可靠、切實可行。
  三、結論
  實施該方案后,LTE網管服務器可在30分鐘內實現整機容災,并實現了節能減排的要求。項目完成后,為各措施形成標準化流程。本次項目利舊一套空閑服務器,該套服務器的原價約為200萬元,折舊后的價值約為75.5萬元。
  同時本次活動也提高了華為LTE網管服務器安全性,可減少備件數量。減少備件價值30萬元。同時本次活動減少設備運行功率5090瓦。按一元一度電計算,活動期間3個月節省電費支出月1萬元。本次全部活動利用現有設備和場地,沒有產生活動費用。通過計算本次QC活動期間給浙江省聯通帶來的經濟效益約為106.5萬元。
轉載注明來源:http://www.hailuomaifang.com/2/view-14863659.htm

?
99久久国产综合精麻豆