大數據環境下的智慧校園建設與應用
來源:用戶上傳
作者:
摘 要:學校信息化建設已經經歷了10多個年頭,現有系統達到幾十個,各個系統獨立運行;同時安防監控,在線課程資源,上網行為非結構化數據資源在智慧校園建設中的作用已經體現。文章根據學校現狀提出適合高校信息化建設的數據模型。主要通過Hadoop分布式系統架構解決結構化數據和非結構化數據之間的融合,為數據分析和決策提供依據。
關鍵詞:Hadoop;非結構數據;數據標準;Spark
中圖分類號:TP3 文獻標志碼:A 文章編號:2095-2945(2019)20-0162-02
Abstract: School information construction has been conducted for more than 10 years, the existing system has reached dozens, and each system runs independently; at the same time, security monitoring, online curriculum resources, and the role of online behavior unstructured data resources have been reflected in the construction of the intelligent campus. According to the present situation of the school, this paper puts forward a data model which is suitable for the information construction of colleges and universities. The main purpose of this paper is to solve the fusion between structured data and unstructured data through Hadoop distributed system architecture, so as to provide a basis for data analysis and decision-making.
Keywords: Hadoop; unstructured data; data standard; Spark
1 概述
智慧校園建設中大數據構建已經成為重要的發展方向,為發現數據價值而開展數據治理成為各方的關注問題,本文通過Hadoop及其生態圈建設構建模型,提出基于Hadoop分布式系統基礎架構思想的解決辦法,主要涉及數據抽取與清洗、Hadoop數據存儲與分析、數據標準構建和智能分析與可視化,大數據構建在智慧校園建設中將起到關鍵性的作用。本文所有實現工具均采用開源技術完成。
2 Hadoop及其生態圈介紹
大數據建設目前采用的主流技術為Hadoop技術框架,Hadoop技術框架下可以完成數據倉庫構建。數據倉庫包括操作性系統和數據倉庫系統兩部分。操作性系統由各個形式的業務數據組成,主要包括關系數據庫、TXT或CSV文件、外部系統數據。這些數據通過抽取、轉換和裝載進入數據倉庫系統。
2.1 大數據處理架Hadoop
Hadoop是Apache開源軟件分布式計算平臺, 生態系統包括:Flume,Hive,Hbase,Pig,Sqoop,Spark等。其中,Hive用于數據倉庫,通過HQL語言查詢 HDFS上的數據。Hbase是Key/Value架構,運行于HDFS平臺之上。其生態圈較為廣泛的應用完全可以支撐大數據平臺運行。
2.2 HDFS分布式文件系統
HDFS分布式存儲系統(Hadoop Distributed File System, HDFS),采用主/從架構設計,HDFS主節點和數據節點數據處理過程如下:(1)Client端發送添加文件到HDFS的請求到NameNode;(2)NameNode告訴Client端如何分發數據塊以及分發的位置;(3)Client端把數據分塊(block),然后把這些塊分發到DataNode中;(4)DataNode在NameNode管理下根據一定的算法復制數據塊,保持數據冗余。
2.3 Spark并行計算框架
Spark并行計算框架與MapReduce基于文件并行計算框架不同,是基于內存計算的并行處理架構,Spark是MapReduce的一種替代方案,將執行模型抽象為有向無環圖執行計劃,將中間輸出結果存儲在內存中。兼容HDFS和Hive等技術,Sprak采用Scala語言編寫,代碼簡潔高效,具有先進的架構,建立在分布式內存抽象RDD之上,可以處理不同的大數據應用場景;基于內存的運行機制和基于硬盤文件的運行機制在緩存處理上與MapReduce得到了極大的提升;Spark提供了多語言支持,支持(Scala,Java,Python),提升其易用性。
3 大數據環境下智慧校園建設
智慧校園建設過程中數據抽取和清洗主要采用Kettle或者Sqoop完成,數據倉庫采用Hive和Hbase,數據標準根據《教育信息化教育部標準》構建Mysql數據庫,通過Davinci完成智能分析和可視化展示。由圖1可以知各部分組成關系。
3.1 數據抽取與清洗
智慧校園建設過程中數據抽取主要實現對現有系統數據的數據采集工作,采集工具采用Kettle工具完成,采集到的數據進入原始庫。原始庫數據包括結構化數據庫Mysql和非結構化數據庫Hive和Hbase。Hive和Hbase都是基于HDFS分布式文件系統作為基礎完成,可以對接非結構化數據。原始庫包括各種結構化數據應用系統和非結構化的應用系統(上網行為和考勤視頻)對接的數據。數據采集以后根據數據標準定義的數據元進行數據清洗工作,清洗工作主要包括:(1)預處理階段;(2)缺失值清洗;(3)格式內容清洗;(4)邏輯錯誤清洗;(5)非需求結構清洗;(6)關聯性驗證等。 3.2 數據標準
數據標準作為數據中心的重要組成部分,主要的數據標準包括中華人民共和國教育行業標準,JY/T 1001-2012, JY/T 1002-2012,JY/T 1003-2012、JY/T 1004-2012、JY/T 1005-2012,JY/T 1006-2012,JY/T 1007-2012這些構成了教育信息化的標準。這些數據標準經過整理,從文檔轉化為數據結構,完成元數據的定義。數據標準主要由教育管理基礎代碼和教育管理信息組成,數據標準建設是個系統工程,數據元的定義可以通過學校需求動態建設主題數據表,具體實現包括2個存儲過程完成:(1)構造標準的DDL數據語言;(2)傳遞標準的SQL創建數據表。
3.3 智能分析與可視化
在數據標準構建完成以后進入數據智能分析和可視化工作,可視化的數據主要來自2個方面,一方面是結構化標準數據展示,對接的數據源是各種結構化數據庫,另一方面是非結構化數據展示,可以對接Hive數據倉庫。可視化平臺實現采用了開源的DVAAS(Data Visualization as a Service)平臺解決方案。具體實現過程是:定義數據源->數據視圖構建->數據可視化組件綁定->交互能力設計->集成能力設計。
4 關鍵技術及其實現
大數據環境下智慧校園建設包括Hadoop生態圈的各個技術應用,主要有分布式系統基礎架構Hadoop技術、數據交換技術-Kettle實現、數據總線技術-OpenESB、Hadoop及其生態圈技術-Hive\Hbase\Sqoop\Oozie、Spark快速通用的計算引擎、Hue\Zeppelin數據可視化技術等。這里主要介紹MapReduce和Spark 2種技術及其實現過程。
4.1 MapReduce編程模型
MapReduce編程模型在Intellij IDE開發具體搭建過程包括:JDK安裝->maven安裝->IDE環境settings.xml配置獲取代碼倉jar包-> IntelliJ IDEA配置maven-> maven WEB項目->配置依賴 jar 包->編寫代碼完成開發->打包運行。
4.2 Spark集群計算平臺
Spark是專為大規模處理而設計的快速通用計算引擎。具有高可伸縮性、高容錯和內存計算的特性,屬于BDAS生態體系。Spark執行過程:(1)Driver與Master建立連接并申請資源;(2)Master進行資源調度;(3)Master與Worker進行RPC通信,榮Worker啟動Executor;(4)Worker啟動Executer;(5)Executer與Driver進行通信;(6)RDD(Resilibuted Distributed DataSet)彈性分布式數據集觸發到Action后,根據這個RDD從后往前推斷依賴關系,遇到shuffle就切分;(7)DAGScheduler切分完Stage后,先提交前面的Stage,執行完后在提交后面的Stage,Stage會產出Task,一個Stage會產生很多業務邏輯相同的Task,然后將以TaskSet的形式傳遞給TaskScheduler,TaskScheduler將Task序列化,根據資源情況,發送給Executor。Intellij IDE開發具體搭建過程包括:JDK安裝并配置->Scala安裝并配置->Maven安裝并配置->Intellij IDEA配置scala Plugin->配置Scala SDK->新建maven項目->pom.xml導入spark依賴->編寫sprak代碼->打包運行。
5 結束語
大數據主要是基于Hadoop分布式的應用高校信息化結構化數據和非結構化數據進行有效的存儲、管理與運算。本文充分利用Hadoop及其生態圈優勢,根據高校信息化需求設計和部署,實現一套基于大數據Hadoop和Spark結合的高校信息化平臺。該平臺具有良好的對于大量異構數據的采集、處理、分析和展示能力。為實現教職工和學生人員畫像提供了重要的技術支撐和實現手段。
參考文獻:
[1]蘇秋月,陳興蜀,羅永剛.大數據環境下多源異構數據的訪問控制模型[J].網絡與信息安全學報,2019(01):78-86.
[2]趙亞楠,李朝奎,肖克炎,等.基于Hadoop的地質礦產大數據分布式存儲方法[J].地質通報,2019(Z1):462-470.
[3]陳中,范開勇,饒宏博.基于Hadoop分布式交通大數據存儲分析平臺設計[J].電腦編程技巧與維護,2018(12):111-113.
轉載注明來源:http://www.hailuomaifang.com/1/view-14882177.htm