基于微博熱度的大學生思政教育精準化發現方法
來源:用戶上傳
作者:王詩宜
摘要:微博是當代年輕人表達觀點的主要平臺之一,如何利用微博信息進行精準化思政教育是一個值得研究的課題。文章將微博的傳播特性和時間特性與聚類算法進行融合,同時根據時間序列將微博集合分為多個增量子集,實現K值的動態自適應和增量化聚類。并分析了微博的點贊、評論、轉發特性,提出合適的微博熱度計算公式,更好地描述微博熱度,進而合理地進行熱點發現。
關鍵詞:聚類;自適應;輿情發現;思政教育
中圖分類號:TP391 文獻標識碼:A
文章編號:1009-3044(2022)32-0064-04
1 概述
微博是當代年輕人表達觀點的主要平臺之一,如何利用微博信息進行精準化思政教育是一個值得研究的課題。微內容[1]的興起,因其在時間效率和空間效率上的優勢,快速改變著信息的生產和傳播。其中,微博就是互聯網微內容中一種主流媒介形式[2],提供了一個開放的平臺,其簡短的寫作風格,使用戶發布信息的門檻極度降低,爆炸式信息的產生成為可能;加上微博強大的可操作性、快速評論、一鍵轉發,使得信息接收用戶可以短時間內完成信息的獲取和觀點的互動,并且通過用戶關系網以幾何的增長速度散布出去,這種便捷性、即時性、互動性也進一步加快了微內容形勢的發展。雖然微博對于熱點話題的排名與推薦[3],但是主要是根據詞頻進行簡單的統計,效果不理想,對于發起的熱門話題,是按時間進行倒序排序,較早的有影響力的微博被最新的微博擠壓下去,難以再現,更有甚者,廣告推銷的微博借助熱門話題的標簽,擠進熱門話題榜,大大降低了話題質量。
2017年教育部印發的《高校思想政治工作質量提升工程實施綱要》中指出高校思想政治教育要“堅持問題導向,注重精準施策?!彪S著時代在變遷,社會在變化,大學生正確價值觀的樹立作為思想政治教育的一部分,也應與時俱進、不斷創新才能更好地落到實處。微博是及時了解和發現大學生價值觀的重要場所,在新冠肺炎疫情的大背景下,如何利用微博平臺的碎片化信息,正確引導大學生的價值觀,提升大學生思想政治教育成效是高校亟待解決的一項重要課題。本文通過對微博不同于一般文本的特性的研究,比如轉發評論這種社交性強的傳播特點,以及熱點爆發時微博所呈現出來的時間特性,將之于熱點發現技術相結合,以更好地發現熱門話題。本文貢獻如下:(1)提出了一種微博熱度的計算方法;(2)對K-means聚類算法進行了優化;(3)探索了在新媒體的環境下大學生思政教育的改革方法。
2 相關工作
針對新浪微博、騰訊微博等有多方面的研究與應用,大多集中在輿論監控、情感分析、信息推薦和熱點發現等方面[4-11]。蔣洪梅分析了微博在輿論傳播中的影響力,總結了微博客與輿論的相關性[12],探討使用微博引導民眾的輿論傾向。楊亮等[13]察覺到當一件重大事情發生,民眾微博中會出現較多的情感詞匯,反映了民眾的態度,并以此提出了情感分布語言模型,通過語段里的語氣詞等表達感情的特征來發掘熱門話題。在繁雜的信息中想要快速發掘有用信息是很難的,所以利用信息傳播論總結了一種微博話題推薦方法,在綜合考慮了信息量、閱讀成本和閱讀時效性的因素之后,針對性進行微博熱點推薦。
金瀏河等[14]對多個主流網絡媒體與“新冠肺炎疫情”相關的話題展開輿情分析,可視化、縱深化地對本次疫情沖擊下的大學生輿情素養、輿情特征、輿情趨勢等問題進行探索。苗瑞丹等[15]提出海量數據的挖掘分析,定性與定量結合的畫像方式以及畫像標簽的建立模式,為精準思政提供了技術可能。周琴等[16]針對2018年~2021年高校突發事件網絡輿情進行文本分析后發現,高校網絡輿情突發性強、涉及面廣、影響性大,社交媒體平臺加速網絡輿情的生成與傳播,處置不當極易催生二次輿情。劉純嘉[17]對10000條微博評論數據進行情感極性標注工作,制作出一個高校輿情數據集,并對熱點問題的高校輿情進行了分析,取得很好的效果。
3 方法
3.1 微博熱度計算
微博作為網絡話題的一種重點表現形式,可以理解為一種隨著時間推移的信息流,熱點話題就蘊含在其中,當一條微博發布后,由于一系列原因,可能是用戶的影響力或是內容的流行性,微博被廣泛關注,存著大量點贊轉發評論現象,或者其他用戶發表同主題微博,當大量同主題微博爆發式出現時,就形成了熱點話題??偨Y影響微博熱度的因素,主要分為兩大方面:微博的傳播特性和微博的時間效應。
3.1.1微博的傳播特性
不同于新聞網站、博客、論壇等其他的網絡信息平臺,微博最重要的特點就是其強大的社交屬性,它以用戶的社交圈為傳播途徑完成覆蓋面極廣的網狀傳播,并且除了文本信息之外,還有豐富的元數據信息,比如點贊、評論和轉發。微博傳播特性包括:
?。?) 點贊數:反映了其他用戶對微博的喜愛和認可,這是最簡單省時的方式,反應用戶之間的互動和對話題的共鳴,但程度只是一般級別;
?。?) 評論數:反映了微博用戶對于此話題的互動程度,這是比點贊更高一層的互動行為,當對話題達到一定喜愛的程度才會與博主進行進一步的互動,也是在話題熱度的重要體現;
?。?) 轉發數:反映了此話題的傳播熱度,這種用戶行為直接造成話題的傳播,也是形成熱點話題的基礎。
根據以上微博熱度影響因素的分析,微博的熱度可以分為靜態因素和動態因素,靜態是指點贊、評論、轉發等自有因素,動態是隨著時間的變化,因此,本文提出一種單條微博熱度計算如公式(1):
[H=u?H0] (1)
nlc202301131358
其中,[u]為微博時間效應因子,[H0]為微博靜態基礎熱度。
a. 時間效應因子[u]
[u]是隨著微博的發表時間越久遠,時間效應越小,具體如公式(2):
[u=et-t0α] (2)
其中,[t]為微博的發表時間,[t0]為當前時間,[α]為時間系數。
b. 靜態基礎熱度[H0]
[H0]是不隨時間變化的,只跟微博的點贊評論轉發情況有關,具體如公式(3):
[H0=logf+1+r-r0r-r0+c] (3)
其中,[f]為關注者個數,[r]為轉發數,[c]是評論數,[r0]是平衡因子,取[f]的千分之一,表明當用戶的粉絲數越高時,轉發量要達到一個基礎的轉發數才能算是一條有意義的微博,以此在一定程度上減弱名人效應。
3.1.2微博的時間效應
除了微博的傳播機制不同,微博還有明顯的時間效應。微博對用戶來說是一個關注事物的展示和內心情緒的表達平臺,用戶發布的永遠是他當前最關注的或最新發現的內容,以求在社交平臺上獲得好友的共鳴。而當熱點事件的過去,其熱度會隨之趨于平淡最終降低,也就是隨著熱點事件的爆發、演變和消亡的時間過程,微博的熱度是會變化的,而且變化是以一種較為急劇的形式呈現的,這將成為微博熱點發現的重要突破口。
3.2 自適應的增量聚類算法
微博話題是一個演變的過程,每天都會產生大量的微博,有新的話題,有前段時間的熱點,在通過聚類來發現微博熱點的過程中,后續的微博不斷加入,聚類必須以增量的形式進行,而K-means聚類的[k]值也必須隨著后續微博的主題數而變化,根據以上需求,本文改進了經典算法,解決初始[k]值、增量聚類和[k]值自適應的問題。算法整體流程圖如圖1所示。
結合上文所述微博特點進行的改進,主要有以下幾點:
3.2.1初始[k]值和聚類中心
K-means算法,[k]值的選取很關鍵,而聚類之前微博主題的個數是無從得知的,所以需要通過其他途徑獲取[k]值,本文采用最基本的層次聚類,設定一定閾值,將微博凝聚成若干個類簇,這樣對于每條微博都是局部最優,然后以此作為K-means的輸入,迭代獲得全局最優解。
3.2.2增量聚類
微博具有時序性,為了發現微博話題的變化情況,需要每隔一個時間觀察一次熱點的變化,所以本文將一定時間跨度的微博集按照固定時間間隔劃分為若干個增量,使用第一個進行層次凝聚,形成初始類簇中心,之后的子集在此基礎上進行K-means聚類,每次迭代后都會對熱點的變化完成記錄。
3.2.3[ k]值自適應
隨著新產生的微博的加入,微博的話題內容和話題個數都會隨之變化,所以在聚類的過程中,[k]也不是固定不變的,本文通過設定閾值,在每次迭代的過程中,如果一條微博和類簇間的相似度小于閾值θ,則不進行歸類,而是加入臨時列表,在一次迭代完成后,通過計算與現有類簇的相異度來決定是否產生新的話題,即如果臨時列表里的某條微博與現有類簇的相異度大于閾值[α],則形成一新的類簇,[k]值加1,直至所有增量完成聚類。
4 實驗
4.1 數據集
本文的測試數據集來自新浪微博,通過爬蟲程序按選定關鍵詞進行爬取,時間范圍為2020年1月1日到2021年12月31日。通過對這些微博初步篩選,保留原創消息,去除少于10個字的消息,刪除重復微博和廣告微博,再從結果中挑選12個主題,總計44869條微博,以此作為測試集語料。
4.2 數據預處理
4.2.1中文分詞
分詞器ICTCLAS[48]是中科院推出的中文分詞器,包括中文分詞、詞性標注等模塊。本次實驗的中文分詞工具就是選用了中科院分詞器的Java版實現。此外ICTCLAS分詞工具還提供自定義用戶詞典功能,以達到具體領域內的更好分詞效果,本文中選用搜狗輸入法詞庫中的領域詞匯,共149568個,以提高分詞效果。
4.2.2去停用詞
停用詞選取網上整理的3000多個詞匯,包括標點符號、無意義數字、語氣助詞,稱謂詞等,對微博分詞之后的結果,進行去停用詞,并過濾掉詞頻低于5的詞語,形成最后的單條微博特征詞集合。
4.2.3計算權值
將分詞并去停用詞之后的詞語集合,計算TF-IDF值,形成初步處理后的原始VSM向量,這也是本次實驗各個對比方法改進前的文檔向量。
4.3 實驗結果
以微博的#每日高速路況#熱度作為實驗的基線,對比熱點發現的效果。首先,我們以3天為單位,將上述預料分為11個增量,第一個增量進行層次聚類,得到[K=2],閾值取[α=0.3],[θ=0.8],每次增量集迭代完成計算和記錄類簇熱度,結果如圖2所示。其中,藍色線條表示#疫情大學生返鄉#話題,灰色線條表示#每日高速路況#。通過實驗,我們發現2020年1月13日至25日之間,微博關于疫情大學生返鄉的事件有過激烈的討論,短期內微博熱度升高。
接著,對時間進行了更細粒度的劃分,以1天為單位分為13個增量,時間范圍2020年4月3日至2020年4月15日,聚類和閾值與之前相同。每次增量集迭代完成計算和記錄類簇熱度,結果如圖3所示。其中,藍色線條表示#山東理工大學虐貓事件#話題,灰色線條表示#每日高速路況#。圖中顯示,4月9日和4月10日熱度明顯升高,并成為熱點事件。通過對比微博熱搜榜,發現4月10日時,#山東理工大學虐貓事件#進入了熱搜榜,而筆者的算法在9日便發現了該熱點,體現了算法的先進性。
nlc202301131358
大學生在虛擬世界和現實交織生活,以微博為首的網絡信息對其的思維、生活、學習以及行為等各方面影響頗深,尤以價值觀的樹立為甚。這種影響是雙面的,一方面若能明辨網絡上的信息并合理吸收,可以正面引導大學生的思維,樹立大學生正確的價值觀;另一方面,若是對網絡上的信息不假思索地輕信,則可能會導致大學生偏離、否定主流意識形態,形成錯誤的價值觀。通過筆者的方法可以第一時間發現熱點,及早掌握輿論風向,并為大學思政工作提供有效幫助。
5 總結
本文提出了微博熱點發現的改進方向,結合微博特性,將傳統的K-means聚類算法改成了增量的形式,并且完成了K值自適應。同時,結合層次聚類,解決了K-means啟動時依賴人為設定K值和初始聚類中心的不足。此外還提出了微博熱度計算公式,以便更準確地描述微博類簇的熱度。最后,通過設計實驗,定性地驗證了話題發掘的結果,實驗表明本文方法可以有效發現熱點。
參考文獻:
[1] 張靜. 基于微博的網絡熱點發現模型及平臺研究[D]. A中科技大學, 2010.
[2] 李巖.基于微博的網絡熱點發現研究[D].鎮江:江蘇科技大學,2013.
[3] 李永道.微博熱點話題發現方法研究[D].南京:南京師范大學,2013.
[4] Beil F, Ester M, Xu X. Frequent term-based text clustering[C]//Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2002: 436-442.
[5] 王永恒,賈焰,楊樹強.海量短語信息文本聚類技術研究[J].計算機工程,2007,33(14):38-40.
[6] 胡吉祥,許洪波,劉悅,等.重復串特征提取算法及其在文本聚類中的應用[J].計算機工程,2007,33(2):65-67.
[7] Gabrilovich E.Feature generation for textual information retrieval using world knowledge[J].ACM SIGIR Forum,2007,41(2):123.
[8] Hotho A,Staab S,Stumme G.Ontologies improve text document clustering[C]//Third IEEE International Conference on Data Mining.Melbourne,FL,USA.IEEE,2003:541-544.
[9] Brusco M J,K?hn H F.Comment on “Clustering by passing messages between data points”[J].Science,2008,319(5864):726.
[10] 徐戈,王厚峰.自然語言處理中主題模型的發展[J].計算機學報,2011,34(8):1423-1436.
[11] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. Journal of machine Learning research,2003,3(1):993-1022.
[12] 蔣洪梅.微博客的特點及其輿論影響力[J].新聞愛好者,2011(5):85-86.
[13] 楊亮,林原,林鴻飛.基于情感分布的微博熱點事件發現[J].中文信息學報,2012,26(1):84-90,109.
[14] 金瀏河,施健.疫情沖擊下大學生網絡輿情演化趨勢與高校思政引導――基于互聯網多平臺數據的計量分析[J].高教學刊,2022,8(21):1-7.
[15] 苗瑞丹,王真.大數據畫像技術助推精準思政的技術可能、現實挑戰和對策思考[J].思想教育研究,2022(7):41-46.
[16] 周琴,夏友福.高校突發事件網絡輿情的應對策略探析――基于2018―2021年141個高校輿情事件的分析[J].傳媒論壇,2022,5(16):82-84.
[17] 劉純嘉.面向高校輿情的中文文本情感傾向性分析[D].南昌:江西師范大學,2020.
【通聯編輯:王力】
nlc202301131358
轉載注明來源:http://www.hailuomaifang.com/8/view-15444088.htm