您好, 訪客   登錄/注冊

基于樸素貝葉斯算法的高等學校貧困生識別方法

來源:用戶上傳      作者:

  摘 要:近年來,高等學校的貧困生認定工作已經成為高校工作中的重要組成部分。如何確保貧困生認定工作的準確性,已經成為促進高等學校教育的公平公正性以及確保大學生身心健康發展的重要條件。本文研究了一種基于樸素貝葉斯算法的高等學校貧困生識別方法算法,通過家庭情況調查表搜集高校所有學生的家庭情況數據,提取其中關鍵指標,再采用樸素貝葉斯算法進行貧困生的認定。采用實際算例進行分析,其結果表明了本文提出方法的有效性。
  關鍵詞:高等學校;貧困生;貧困認定;樸素貝葉斯
  中圖分類號:TP391.1 文獻標識碼:A 文章編號:1671-2064(2019)08-0054-02
  0 引言
  近年來,在高等教育越來越普及的情況下,一種典型的大學生群體越來越受到國家和政府的關注,即高等學校中的貧困生群體。如何保證高等學校中貧困生認定工作的準確性,是關乎高等教育公平公正,貧困生能否順利的完成學業的關鍵問題。然而,現階段的貧困生認定仍然存在以下問題。
  1 現階段的貧困生認定資助工作存在的問題
  1.1 資助工作缺乏客觀認定標準
  目前的資助判定主要依靠紙質材料證明以及通過主觀評價等方式來認定貧困生,這種方法存在著標準模糊,材料容易作假等缺陷,極其容易發生資助不精確的現象,典型的表現在于:(1)自身是非貧困生的被判別為貧困生;(2)自身為貧困生的被判別為非貧困生;(3)有些貧困生因為性格、自尊心、或是信息不流通等因素,沒有參加貧困生的申請,導致了最應該被資助的同學沒有被資助[1]。
  1.2 資助工作缺乏后續跟蹤機制
  學生資助終止于貸款的發放,這樣僅僅在貧困生的認定方面進行了工作,但是沒有對學生拿到資助貸款后的行為進行采樣,沒有對資助金的使用和學生的具體表現進行跟蹤分析,從而導致了資金的使用無法監督,也無法確保資助金是否體現了它的價值。
  1.3 資助工作缺乏校用評價體系
  現階段偶有報道有學生拿到資助金后大肆揮霍的情況,相反,對于一些真正需要資助的貧困生卻由于各種問題不能獲得資助。如何來評定資助工作的好壞,保證資助工作向良性方面發展,也是當前的資助方法需要解決的問題。
  近年來,機器學習理論的發展為貧困生的認定工作提供了一種基于事實數據的新思路。已成為新的研究熱點。本文采用機器學習中的樸素貝葉斯算法對高等學校的貧困生進行認定。首先通過問卷調查采集高校學生的家庭情況數據,再抽取其中關鍵特征,以建檔立卡學生的數據作為標簽,使用樸素貝葉斯算法進行貧困生的預測。采用實際算例進行算法論證,其結果表明了本文方法的有效性和實用性。
  2 樸素貝葉斯算法
  本文采用樸素貝葉斯算法對貧困生進行認定。樸素貝葉斯中的樸素一詞的來源就是假設各特征之間相互獨立。這一假設使得樸素貝葉斯算法變得簡單,但有時會犧牲一定的分類準確率。樸素表示特征條件獨立;貝葉斯表示該方法基于貝葉斯定理。和決策樹模型相比,樸素貝葉斯分類器發源于古典數學理論,模型所需估計的參數很少,對缺失數據不太敏感,算法也比較簡單。理論上,樸素貝葉斯分類器模型與其他分類方法相比具有最小的誤差率。但是實際上并非總是如此,這是因為樸素貝葉斯分類器模型假設屬性之間相互獨立,這個假設在實際應用中往往是不成立的,這給樸素貝葉斯分類器模型的正確分類帶來了一定影響。樸素貝葉斯屬于監督學習的生成模型,實現簡單,沒有迭代,并有堅實的數學理論(即貝葉斯定理)作為支撐[2]。
  整個樸素貝葉斯分類分為三個階段:(1)準備工作階段,這個階段的任務是為樸素貝葉斯分類做必要的準備,主要工作是根據具體情況確定特征屬性,并對每個特征屬性進行適當劃分,然后由人工對一部分待分類項進行分類,形成訓練樣本集合。這一階段的輸入是所有待分類數據,輸出是特征屬性和訓練樣本。這一階段是整個樸素貝葉斯分類中唯一需要人工完成的階段,其質量對整個過程將有重要影響,分類器的質量很大程度上由特征屬性、特征屬性劃分及訓練樣本質量決定。(2)分類器訓練階段,這個階段的任務就是生成分類器,主要工作是計算每個類別在訓練樣本中的出現頻率及每個特征屬性劃分對每個類別的條件概率估計,并將結果記錄。其輸入是特征屬性和訓練樣本,輸出是分類器。這一階段是機械性階段,根據前面討論的公式可以由程序自動計算完成。(3)應用階段。這個階段的任務是使用分類器對待分類項進行分類,其輸入是分類器和待分類項,輸出是待分類項與類別的映射關系。這一階段也是機械性階段,由程序完成。
  樸素貝葉斯算法如下所示,輸入為訓練數據D={(x1,y1), (x2,y2), (xn; yn)}, xi=(x(1)i, x(2)i…x(n)i )T,x(j)i是第i個樣本的第j個特征,y為x對應的分類標簽,ck表示類別。輸出為新輸入x’的分類。具體步驟為:
  3 基于家庭經濟調查的貧困生指標發展現狀
  一般采取基于家庭經濟調查的貧困生指標數據進行樸素貝葉斯的學習。所謂家庭經濟調查法是指各種不通指標的調查方法來確認家庭或個人是否有能力支付學生的教育費用,以此確認家庭或個人是否屬于貸款資助的目標。國外家庭經濟調查主要以收入和能力兩條途徑來考察其經濟負擔能力。幾乎所有的收入狀況調查方案不僅以收入作為前提條件,還考慮了其它一些參考指標,如職業類型,住房類型及居住地域,家庭汽車,家庭規模,子女的年齡、性別、種族等。其中,美國是以家庭收入作為貧困生認定的唯一標準,原因在于其完善的收入查證和收入稅征收體系可以有效通報和監督居民的非勞動所得;德國采用“家庭經濟調查”的基本依據是學生必須提供父母個人所得稅的支付稅單;日本將居民收入、資產指標與各種分類指標相結合,用以確定學生的家庭經濟狀況;菲律賓將收入和資產通報、一系列的分類指標與嚴格的收入和資產查證相結合,在貧困生認定上共同發揮作用。在發展中國家,非洲的烏干達主要依靠代理變量,如父親的職業層級和擁有的交通工具等來衡量其家庭收入;尼日利亞助學貸款委員會使用一種四要素財產檢測法,即通過父母職業、收入、家庭人口數和正在接受教育的子女數目來衡量家庭經濟狀況。在一些拉丁美洲國家,“家庭經濟調查”十分嚴格,內容相當詳細。在秘魯,申請貸學金的學生甚至要家長接受面談,內容涉及家庭財產及父母的收入能力,如房產、汽車和土地,父母的工作、雇主和工資收入[3]。
  4 算例分析
  以某學校為例,采集該校新進校學生的家庭情況數據共一萬條。主要數據指標為:(1)父母職業;(2)家庭成員構成;(3)家庭是否存在患有重大疾病的成員;(4)父母中任意一方是否為殘障人員;(5)是否為單親家庭;(6)家庭是否負債;(7)近兩年是否遭遇重大自然災害等。
  使用第2章所述的算法輸入數據,并使用建檔立卡的學生數據和已知較富裕家庭的學生數據作為標簽進行訓練。訓練完成后,選取除建檔立卡以外的學生數據進行預測,分別預測其為貧困生的概率以及非貧困生的概率,選擇概率較高的類別作為最終預測。同時,對這400名同學的家庭進行摸查,以確認真實情況。使用本文方法與隨機森林以及支持向量機進行比較,檢測精度如表1所示。正確率為被檢測出的貧困生占實際貧困生的比例;誤測率為實際的貧困生被檢測為非貧困生的比例??梢钥闯?,樸素貝葉斯算法較其他方法檢測準確度更高[4]。
  5 結語
  本文研究了一種基于樸素貝葉斯算法的高等學校貧困生認定算法,通過采集學生的家庭背景數據,提取其中關鍵指標,再采用樸素貝葉斯算法對其中的貧困生進行預測,從而辨識出真正的貧困生。采用實際算例進行分析,其結果表明了本文提出方法的有效性。
  參考文獻
  [1] 唐穎,李明江.數據挖掘在高校貧困生消費信息管理中的應用研究[J].湖南商學院學報,2011,18(6):45-49.
  [2] 李明君.基于數據挖掘的貧困助學金認定方法研究[D].華中師范大學,2017.
  [3] 李珊娜.基于校園一卡通平臺的數據挖掘應用研究[J].鐵路計算機應用,2010,19(6):55-58.
  [4] 費小丹,董新科,張暉.基于校園一卡通消費數據的高校貧困生分析[J].電腦知識與技術,2014(20):4934-4936.
轉載注明來源:http://www.hailuomaifang.com/8/view-14838050.htm

?
99久久国产综合精麻豆