您好, 訪客   登錄/注冊

基于工業實時數采數據缺失值填充的研究及實現

來源:用戶上傳      作者:李達,許仁杰,劉智宇,趙晨,馬潔,袁湘云

  摘要:工業大數據在生產實際數采的過程中,存在的實時數據頻繁閃斷、數據異常跳變等風險,嚴重影響現有設備的控制效能及信息系統的分析結果,傳統意義上采取增加傳感器進行多級驗證的方法存在信道干擾噪聲加大帶來的數據缺失值無法有效滿足的問題。文章將目前針對此類的最有效的多元回歸分析智能診斷建模、SVM智能診斷建模進行了分析,發現其對應的R2、MSE、RMSE均無法解決現有存在的問題,通過新建一套基于ISODATA的預測算法,經實時預測結果,其對應的R2、MSE、RMSE均能滿足實時數采數據填充的要求,并將預測的值作為工業實時數采數據缺失值的填充。經訓練迭代200次后,MSE為0.013、RMSE為0.008。經實踐可知,本算法可以實現工業實時數采數據缺失值的填充。
  關鍵詞:實時數采;缺失值;均方根誤差
  中圖分類號:TP311 文獻標識碼:A
  文章編號:1009-3044(2022)32-0055-03
  1 工業大數據在數采過程中存在的痛點
  現階段的煙草生產一線,已從傳統意義上的機械化、自動化向智能化、智慧化進行發展,尤其是工業互聯網的進一步推廣,現階段已不僅僅是傳統意義上的RS232、RS485、Profinet、Profibus、Profibus-DP、PLC子網、Wincc中控網絡等內容[1]。在此基礎上,新增了物聯網、NBIoT網絡、工業以太網等網絡,隨著設備數量、傳感器數量的海量劇增,傳統意義上對應的數采協議收到工業現場干擾噪聲信號的影響將逐漸加大,造成實時數據頻繁閃斷、數據異常跳變等風險,嚴重影響現有設備的控制效能及信息系統的分析結果[2]。例如:
  1.1數據頻繁閃斷
  如圖1所示,卷包機組在數采的過程中出現了多次數據頻繁閃斷的情況。
  1.2數據異常跳變
  如圖2所示,制絲的葉絲在數采的過程中出現了多次數據頻繁閃斷的情況。
  目前采用的方法是加大傳感器數量的校驗,加裝多級校驗機制,但由于設備數量的增多,本身設備檢測有5%的誤差,數量的增加會導致誤差的累計,且如果過程中,個別傳感器出現差錯,將導致數據錯誤的“蝴蝶效應”,使得檢測校驗效能失效[3]。
  綜上所述,目前在運用工業大數據進行數采的工業企業中,因數據量巨大、通信協議復雜多變、傳感器數量級劇增,導致工業大數據在數采過程中因信道干擾造成數據頻繁閃斷、數據異常跳變的問題[4]。該問題目前采用傳統手段無法解決,是一個所有運用工業大數據企業均需解決的共性問題[5]。
  2 基于該類痛點目前的主要做法及效果分析
  針對此類問題,目前已知的解決方案有如下兩種,分別是基于多元回歸分析、SVM智能診斷建模的解決方法來解決[6]。
  針對以上兩類方法,為驗證是否能解決以上存在的問題,使用在預測領域常用的評價指標:均方誤差(MSE)、均方根誤差(RMSE)、平均絕對誤差(MAE)和判定系數([R2])來衡量方法的有效性結果[7]。
  現將如下兩種方式進行說明:
  2.1 多元回歸分析建模
  2.1.1建模過程
  利用數理統計中的回歸分析,來確定兩種或兩種以上變數間相互依賴的定量關系的一種統計分析方法之一。因變量的變化往往受幾個重要因素的影響,此時就需要用兩個或兩個以上的影響因素作為自變量來解釋因變量的變化,這就是多元回歸亦稱多重回歸。當多個自變量與因變量之間是線性關系時,所進行的回歸分析就是多元線性回歸。
  2.1.2 基于多元回歸分析的智能診斷建模分析結果
  通過運用MSE、RMSE、[R2]對多元回歸分析建模的情況進行分析,其效果如表1所示:
  結論:通過分析可以看出,目前基于多元回歸分析的智能診斷建模,因T-Pre時長為192s,MSE為0.535>0.05,RMSE為0.374>0.05,[R2]為92%<95%。因此,該方案對于現有存在的工業數據頻繁閃斷、數據異常跳變的問題有效性不足。
  2.2 SVM智能\斷建模
  2.2.1建模過程
  從本質上看,數據頻繁閃斷、數據異常跳變的識別是屬于二分類的范疇,所以在建模的過程中,為了提高分類器的處理速度及精度,建立了5個二分類SVM模型。二分類SVM智能診斷模型的建模過程,如圖3所示:
  2.2.2 基于SVM的智能診斷建模分析結果
  通過運用MSE、RMSE、[R2]對SVM智能診斷建模的情況進行分析,其效果如表2所示:
  結論:通過分析可以看出,目前基于SVM的智能診斷建模,因T-Pre時長為154s,MSE為0.219>0.05,RMSE為0.137>0.05,[R2]為94%<95%。因此,該方案對于現有存在的工業數據頻繁閃斷、數據異常跳變的問題有效性不足。
  綜上所述:目前已知的基于多元回歸分析智能診斷建模的解決方法、SVM智能診斷建模解決方案無法有效解決工業大數據運用過程中數采數據出現的頻繁閃斷、數據異常跳變的問題。
  3 基于ISODATA算法解決痛點的具體實現
  由于目前已知的基于多元線性回歸智能診斷建模的解決方法、SVM智能診斷建模解決方案無法有效解決工業大數據運用過程中數采數據出現的頻繁閃斷、數據異常跳變的問題。為解決以上存在的問題,經研發,擬采用ISODATA(迭代自組織數據分析)算法來解決,該算法有效解決了傳統的K-Means算法在運算過程中參數迭代對于高維度無法集中的問題,實現了對現有數采數據的聚類、預測、分析,具體做法如下:
  3.1 ISODATA智能診斷建模

nlc202301131402



  建模過程:
 ?、龠x取不同的參數指標,以將N個數據樣本按指標分配到各個聚類中心中去。
  ②計算各類中每個樣本的距離指標函數。
  ③-⑤按給定的要求,將前一次獲得的聚類集進行分裂和合并處理(④為分裂處理,⑤為合并處理),獲得新的聚類中心。
  ⑥重新進行迭代運算,計算各項指標,判斷聚類結果是否符合要求。經過多次迭代后,若結果收斂,則運算結束。
  3.2 基于ISODATA分析的智能診斷建模分析結果
  通過運用MSE、RMSE、[R2]對ISODATA智能診斷建模的情況進行分析,其效果如表3所示:
  結論:通過分析可以看出,ISODATA的智能診斷建模,因T-Pre時長為27s,MSE為0.0.032<0.05,RMSE為0.019<0.05,[R2]為98%>95%。因此,該方案可以有效解決現有存在的工業數據頻繁閃斷、數據異常跳變的問題。
  將該方法用于工業大數據實時數據數采缺失值填充,基于如圖4的算法流程:
  結合產量數據、瞬時速度等數采點存在的工業數據頻繁閃斷、數據異常跳變缺失的數據點,以ISODATA智能診斷預測的擬合數據作為填充值,進行數據補全,形成正確、完整、有效的數據,如圖5所示:
  通過以上方法,實現了基于工業實時數采數據缺失值的有效填充,并能實現預測值與真實值的一一對應,將該類方法與傳統的BP神經網絡預測填充對比,可見,基于ISODATA智能診斷預測的方式,能夠有效填充工業實時數采數據的缺失值,并能確保填充的數采缺失值與真實情況做到98%的滿足度。
  選取不同迭代次數,誤差結果不同,本文提出算法c傳統ISODATA的比較結果見表4所示:
  由上表可以看出BP算法的誤差較大,ISODATA的誤差較?。浑S著訓練的迭代次數的增多,其對應的準確性越好,預測的精度越高,RMSE、MSE越小,更接近于真實值,因迭代次數達到200次時,[R2]為1,即最優的迭代次數為200次。
  4 結束語
  在運用工業大數據進行數采的工業企業中,確保工業大數據數采數據有效、真實、好用,是各工業企業基于數據基礎開展大數據應用的前提,面臨著因數據量巨大、通信協議復雜多變、傳感器數量級劇增,導致工業大數據在數采過程中因信道干擾造成數據頻繁閃斷、數據異常跳變的問題,傳統的意義上的方法無法解決。
  經查詢驗證目前針對此類問題的解決方法:基于多元回歸分析智能診斷建模的解決方法、SVM智能診斷建模解決方法,由于MSE、RMSE、[R2]指標不理想,致使當前已知的先進算法無法解決該類問題。
  本文通過建立一套ISODATA的算法,構建各類數據集;隨后將數據集分成訓練集和測試集,對這些數據進行歸一化處理以提高訓練速度和計算精度;接著構建ISODATA結構,輸入訓練數據進行訓練;經實踐驗證可知,MSE、RMSE、 指標滿足要求,證明了該方法的有效性,與傳統的BP神經網絡預測填充對比,可見,基于ISODATA智能診斷預測的方式,能夠有效填充工業實時數采數據的缺失值,并能確保填充的數采缺失值與真實情況做到98%的滿足度。該方法在云南中煙紅云紅河集團工業互聯網平臺進行了使用,為全面推進大數據應用打下了堅實的數據基礎。
  該方法有效解決了所有工業企業在運用工業大數據均面臨的棘手的共性問題,推廣應用前景廣闊。
  參考文獻:
  [1] 戴彥文,于艾清.基于健康特征參數的CNN-LSTM&GRU組合鋰電池SOH估計[J].儲能科學與技術,2022,11(5):1641-1649.
  [2] 劉立邦,楊頌,王志堅,等.基于改進WOA-LSTM的焦炭質量預測[J].化工學報,2022,73(3):1291-1299.
  [3] 吳春鵬,馮姣.結合AMS的C-LSTM船舶軌跡預測[J].船海工程,2021,50(6):141-146,152.
  [4] 張芳叢,秦秋莉,姜勇,等.基于RoBERTa-WWM-BiLSTM-CRF的中文電子病歷命名實體識別研究[J].數據分析與知識發現,2022,6(S1):251-262.
  [5] 鄧思源,周蘭庭,王飛,等.大壩變形的XGBoost-LSTM變權組合預測模型及應用[J].長江科學院院報,2022,39(10):72-79.
  [6] 夏炳森,唐元春,汪智平.基于AMCNN-LSTM的電力無線接入專網異常流量檢測[J].重慶郵電大學學報(自然科學版),2021,33(6):939-945.
  [7] 于雅潔,劉賢達,蔣啟梅,等.融合LSTM-DNN的工業安全態勢預測模型[J].小型微型計算機系統:1-8[2021-12-17].
  【通聯編輯:光文玲】

nlc202301131402




轉載注明來源:http://www.hailuomaifang.com/8/view-15444090.htm

相關文章

?
99久久国产综合精麻豆