基于Hadoop的大數據網絡安全實體識別方法
來源:用戶上傳
作者:
摘要 本文主要針對Hadoop的大數據網絡安全實體識別方法展開研究,希望能夠為相關工作者提供理論幫助。
【關鍵詞】Hadoop 大數據 網絡安全 實體識別
現階段,網絡在人們的生活中扮演著無法替代的重要角色。而隨著網絡用戶的增加以及數據信息的擴展,人們對于網絡安全的要求也越來越高。在網絡信息安全處理工作中,傳統的信息處理方式以及網絡安全實體識別方法已經無法滿足當前海量數據處理的實際需求。因此在對網絡安全實體識別工作的研究中,許多學者發現應用Hadoop能夠有效的保障網絡安全實體識別工作的質量。當前,Hadoop在諸多行業中都有應用,其中:通過Hadoop能夠支持雅虎廣告系統功能以及搜索功能;Hadoop在Facebook中的應用能夠提供數據處理與分析功能......種種實例表明,Hadoop能夠對海量信息進行處理。而且Hadoop能夠應用與網絡實體安全的識別工作中,提升網絡數據信息的處理能力,保障網絡運行安全。
1 Hadoop概念闡述
1.1 Hadoop關鍵技術
HDFS以及MapReduce開源實現是Hadoop體系結構的核心部分。其中,HDFS具有高伸縮性、高容錯性的應用優勢,并能夠適用于一些低廉、普通的硬件工作中,形成分布式系統,便于對數據信息進行管理。借助MapReduce能夠為用戶提供開發并行應用程序。MapReduce可以實現集群并行任務處理以及分布式計算。借助HDFS和MapReduce,能夠對數據信息進行監管,支持基本的數據存儲以及操作等功能。在對HDFS展開研究并以此為基礎,MapReduce,實現了任務跟蹤功能、分發功能以及執行功能。此外,MapReduce還能夠對最終處理結果進行收集,從而實現Hadoop的主要任務。
1.2 Hadoop網絡安全實體識別分析
數據采集系統對網絡安全設備的數據信息進行采集,并生成數據文件。將這些數據文件利用指令將其存儲在HDFS中。通過HDFS能夠將多個硬件資源節點進行分布式存儲。利用MapReduce對數據信息進行分析處理,并將最終分析結果進行展示。MapReduce輸入可支持多種格式,并將之HDFS中。借助用戶設定的InputDataFormat,利用Hadoop將不同數據文件進行分割,并將分割完成后的(key1,value1)集合作為map函數進行處理,并在分組完成后將數據傳遞給reduce函數,通過reduce函數得到最終的輸出結果。將輸出結果載入文件中,并將結果進行文件格式配置。
2基于Hadoop網絡安全實體識別方法的實現
2.1 共享機制的輸入
由于條件函數依賴約束的構成是tableau,因此,在執行檢查條件函數依賴關系的約束過程中應針對每一個tableau進行檢查。并對不同的Reduce任務以及Map任務進行合并,最終實現對多個MapReduce合并成一個單獨的任務進行處理。MapReduce任務的共享機制適用于多種情況下。本文中假設MapReduce任務數量兩個,并將之擴展到MapReduce任務組中。Reduce階段屬于多個原始輸入任務元組,需將之劃分到原始任務Reduce函數中注意,在輸入共享機制過程中,若Map任務與任務一般無二,則可以對其進行同時的輸入共享,將之成為一個全新的MapReduce任務進行輸入共享,無需進行重復掃描。
2.2 Map函數以及Reduce函數的實現
Hadoop框架中Map函數有公共類以及接口類的定義??刹捎肕apper公共類方法來實現文中Hadoop網絡安全實體識別中map函數的設置。針對Java數據類型,Hadoop平臺采用了不同種類對其進行封裝。這些不同類型的封裝能夠更有利于對數字浮點進行歸類,便于節點之間的數據傳遞以及轉換。其中,VALUEIN代表數據本身,能夠對數據的屬性進行分析解讀,并讀取每一個數據中各個屬性相對應的數值。利用條件函數依賴約束的基本原則,對數據屬性中的數值進行比較,將最終比較完成的結果利用屬性值代替。比較完成后的結果進行組合,形成一個全新的KEYOUT。
2.3 Combine函數實現
由于假設的網絡安全實體識別系統中將會重復出現大量的map函數中的key值??紤]到這一點,在對其進行combine合并函數處理map函數后,應對大量的重復key值進行合并處理,否則這些無用的key值將會對系統造成一定影響。reduce函數的實現則需借助combine功能。當全部的類都處理完成后,此時將由Hadoop平臺為系統提供一個Job類。此時,Job類主要用于對與之對應的reduce、map以及combine函數進行設置。除此之外,在Job類中還應設置一些其他的相關類,從而實現與其他系統的關聯,便于對數據文件的路徑進行參數設置、輸出/入以及存儲。
3 結論
綜上所述,通過對Hadoop展開研究,可知Hadoop應用于網絡安全管理平臺具有極大的可靠性、可用性以及實用性。而且Hadoop的應用能夠減輕數據讀取的實際時間,可以高效的完成網絡安全管理平臺的管理工作效率,而且在實際應用中具有高效性、高擴展性、高容錯性等應用優勢。
參考文獻
[1]張春霞,王新猛,張曉熙.基于Hadoop的森林公安網絡輿情監測系統設計與實現[J].信息網絡安全,2018(12):82-86.
[2]李優.基于Hadoop的分布式網絡爬蟲設計與實現[D].西北大學,2018.
[3]呂濤.基于Hadoop平臺的并行決策樹算法研究[D].西安科技大學,2018.
[4]金丹丹.Hadoop容錯機制中的推測執行策略優化與研究[D].南京信息工程大學,2018.
轉載注明來源:http://www.hailuomaifang.com/1/view-14841833.htm