大數據技術下企業信息采集技術研究

> 中國論文網 >
科技論文 >
大數據技術下企業信息采集技術研究

大數據技術下企業信息采集技術研究

來源:用戶上傳作者:

　　摘要：大數據技術作為一種新的信息融合應用技術，被廣泛應用在各個領域中，大數據技術給企業信息采集工作帶來了各種機遇和新的挑戰。企業要積極轉變工作理念，結合自身發展情況和需求有效引進、利用不同信息采集技術，從不同渠道獲取自身需求的信息資料，促進企業建設穩定持續的發展。文章進一步對大數據技術下企業信息采集技術展開分析與探討。
　　關鍵詞：大數據技術;企業;信息采集技術
　　大數據時代，企業要想在競爭激烈的市場上始終占據一席之地，就必須高度重視對自己及相關的信息采集技術的創新研究應用工作。大數據最為顯著的特點是大量、多樣、高速、真實性以及低價值密度，企業要想從海量數據中采集到具有高價值的數據信息，就需要搭建起一個專業完善的數據信息采集系統，利用不同技術展開對數據的科學提取、轉換及加載，為企業管理工作提供科學參考依據，幫助企業建設與管理創造出更多價值。
　　1 大數據技術下企業信息采集工作的優勢分析
　　1.1 信息采集系統性
　　企業在傳統信息采集工作中，通常采用的是手工操作方式，處理效率低、成本高且準確度不高，缺乏一定的科學系統性。而基于大數據技術輔助應用，企業能夠快速準確采集到自身需求的信息數據，有效建立起完善的企業內部數據，完成從傳統信息手工采集到自動化采集的過程轉變，全面準確掌握市場用戶的實際發展情況。同時，最大限度地降低了人工因素對數據采集工作準確性帶來的影響[1]，有效提升了信息采集工作業務的處理質量和效率，幫助企業創造更多經濟效益，促使企業數據信息采集變得更加規范系統性。
　　1.2 信息采集范圍廣泛性
　　在計算機互聯網大力發展的時代背景下，大數據技術能夠幫助企業在短時間內收集到大量自身需求的信息數據，節約人工成本。海量的中小企業分布在各個地區，在計算機互聯網、云計算技術以及大數據技術的應用下能夠讓中小企業的數據統一集中起來，將實際采集的準確數據錄入儲存到計算機系統中，實現對數據的實時動態跟蹤查詢，得出企業在信息采集工作中應用大數據技術能夠保證信息采集范圍的廣泛性，避免數據的單一性影響到企業建設更好的發展。
　　1.3 信息采集真實完整性
　　企業在傳統信息采集工作中，實際采用的各項數據信息處理水平較為落后，難以為企業提供真實完整的高價值數據信息。工作人員往往只會通過基礎抽樣方式展開對各項數據的加工處理和存儲，使用樣本大致估計總體特性?，F代企業通過將大數據技術融入信息采集工作，能夠促使企業具備高效處理海量數據的能力[2]。企業也能夠從不同渠道中采集到更多信息進行對比處理，減少了由信息獲得偶然性所帶來的影響，充分保障了企業采集信息數據的真實完整性。除此之外，企業還能夠通過加強對收集信息數據的深入加工處理，科學有效地挖掘出更多隱藏在數據背后的有價值數據信息，為企業做出最佳管理決策提供科學參考依據。
　　2 大數據技術下企業信息采集技術的實踐應用
　　2.1 系統日志采集系統
　　在市場經濟發展過程中，大多數企業的經濟業務平臺每天都會生成各式各樣的日志數據，針對不同的日志信息，企業通過深入分析挖掘能夠獲取采集到一定價值的數據信息。企業高層領導要高度重視對內部系統日志信息的有效收集和采集工作，安排專業人員對日志數據進行科學地分析處理工作，幫助企業做出最佳的經營管理決策?；诖髷祿夹g的系統日志采集系統是較為先進的，能夠輔助企業高效收集日志數據，并提供在線和離線的數據實時分析。企業進行信息數據采集時，時常會運用到的開源日志收集系統主要包括Flume，Scribe等。Flume作為一種分布式、安全可靠的服務，能夠幫助企業科學高效準確地采集到大量日志數據，具備極好的容錯能力，有著基于流式數據流的簡單靈活架構。Scribe作為Facebook開源的日志采集系統，實質是一個分布式共享隊列，能夠幫助企業實現從不同數據源上快速準確地收集到需求日志數據，同時，將數據傳遞到共享隊列中[3]。Scribe能夠支持長期存在的消息隊列，為企業日志收集系統提供良好的容錯能力，其消息隊列同樣具備較好的容錯能力，能夠將各項日志數據有效寫入到本地磁盤中。
　　2.2 網絡數據采集系統
　　企業可以通過大數據技術，利用網絡數據采集系統完成對各項需求信息的采集工作。如利用網絡公關API、網絡爬蟲等去從各個網站有效收集有價值的數據信息，提取大量半結構化和非結構化數據，將這些數據成功轉換成結構化數據，并安全存儲到本地文件數據庫中。企業在利用網絡爬蟲采集信息數據時，時常運用到的網頁爬蟲系統主要包括Crawler4j，Apache Nutch以及Scrapy等框架。其中，Crawler4j和Scrapy作為一種爬蟲框架，能夠為企業開發技術人員提供便利的爬蟲API接口，開發技術人員則要高度重視怎樣有效實現爬蟲API的接口。Crawler4j和Scrapy框架的應用能夠提升開發技術人員開發效率，在短時間內實現對爬蟲系統的開發目標，為企業在各個網絡平臺上采集到更多有效數據。而Apache Nutch作為一種高度可擴展和可伸縮性的分布式爬蟲框架，其中，Apache是基于分布式完成對網頁數據的抓取，由Hadoop支持，在提交MapReduce任務后去有效抓取網頁數據，并將抓取到的各項網頁數據安全保存到分布式系統基礎架構的文件系統（Hadoop Distributed File System，HDFS）中。Nutch可以輔助企業展開分布式多任務的爬取數據，多個設備同時進行爬取任務，Nutch能夠發揮出多個設備的計算資源和存儲能力，全面提升系統爬取數據的能力。
　　2.3 數據庫采集系統
　　部分企業仍然使用傳統關系型數據庫Oracle和MySQL等去完成對各項數據的存儲工作，有些也應用NoSQL數據庫。企業在日常經營管理過程中生成的各項業務數據，會以數據庫一行記錄形式被直接寫入到對應的數據庫中。企業可通過將數據庫采集系統與業務后臺服務器有效結合在一起，后臺產生的業務數據被自動寫入數據庫中，基于處理分子系統完成對數據庫采集系統的分析工作。　　在大數據技術發展應用基礎下，企業廣泛采用的信息采集分析技術是Hive—美國Facebook公司設計開發的一款能夠支持PB級別的可伸縮性數據倉庫，建立在Hadoop上的開源數據倉庫解決方案。企業利用Hive信息采集分析技術，有效使用類似SQL的聲明性語言表示的查詢，不同語言能夠被編譯為采用Hadoop執行的MapReduce作業[4]。同時，基于HiveQL技術使用輔助下，能夠促使用戶將自定義的map-reduce腳本插入到查詢中。當HiveQL語句在被提交執行過程中：（1）Driver會把查詢快速準確傳遞給編譯器compiler，經過一系列的解析作業、類型檢查以及語義分析，編譯器運用安全存儲在Metastore中的元數據對應生成一個邏輯任務。（2）基于簡單的基于規則的優化器展開優化作業。（3）生成一組MapReduce任務以及HDFS Task的DAG優化后的Task，系統執行引擎會利用Hadoop的實際依賴性順序執行不同的Task。Hive信息采集分析技術的應用能夠提供各種簡單的HiveQL語句，對企業數據庫中的數據展開簡要分析計算，為企業管理決策提供科學依據。
　　3 結語
　　在大數據技術應用發展下，現代企業要充分發揮出大數據信息采集信息技術的作用，結合自身實際發展情況和需求，有針對性地采用網絡爬蟲、Hive以及系統日志采集等信息采集技術，科學有效搭建起科學完善的信息自動采集系統，為企業信息采集工作提供有力技術支持。
　　[參考文獻]
　　[1]黃繼鴻，趙新華，王強.信息采集技術研究與應用[J].航空科學技術，2014（6）：74-75.
　　[2]趙紅艷.基于大數據技術的小微企業信息采集技術研究[J].科技展望，2015（30）：14-17.
　　[3]戚揚.Web數據挖掘信息采集技術研究及在網絡新聞自動抓取中的應用[J].技術研究，2015（3）：54-56.
　　[4]HONGYAN Z.Study on the information security of the age of big data[J].International Conference on Computer Science and Software Engineering，2014（5）：60-61.
轉載注明來源:http://www.hailuomaifang.com/8/view-14905805.htm

查看更多→

大數據技術下企業信息采集技術研究

相關文章