數據挖掘技術在圖書推薦系統中的應用
來源:用戶上傳
作者:
摘要:隨著網絡信息技術的快速發展,高校圖書館傳統管理模式和系統受到了巨大的沖擊,現階段,結合大數據和云計算等技術,提高圖書館系統管理功能顯得尤為重要。目前,讀者對于圖書館要求不僅僅限于傳統借還服務方式上,還包括網絡檢索、快速查閱、個性化服務等多方面。圖書館系統建設中要充分利用現代網絡及信息技術,促進推薦系統的逐步完善,加強信息審核,結合讀者需求定期推薦,進而提高圖書服務水平。本文首先對數據挖掘的概念進行了分析,指出了圖書館系統應用數據挖掘技術的優勢,對具體算法、數據處理和關鍵技術改進提出了有效的建議和對策。
關鍵詞:數據挖掘技術;圖書館;推薦系統
中圖分類號:TP311 文獻標識碼:A
文章編號:1009-3044(2019)13-0001-02
現代網絡技術的發展,使圖書館發生了翻天覆地的變革,最初的紙質圖書館到目前的自動化、智能化圖書館,網絡虛擬技術在圖書館系統中的應用較為普遍。目前,圖書館系統中服務項目逐漸增加,讀者圖書服務水平逐漸提高,但是針對性的個性化的服務項目還有待挖掘和完善。我國高校建設也十分重視圖書館的建設和發展,推進數字化校園建設。數據挖掘技術作為信息技術中的重要組成部分,在圖書館推薦系統中應用該類技術,可以實現為讀者提供個性化服務,創新管理形式,促進系統功能優化,進而促進圖書館建設的日趨完善。
1 數據挖掘的概念
數據挖掘概念最早是在加拿大被提出,1995年加拿大蒙特利爾第一屆知識發現和數據挖掘國際會議上國外學者Usaama提出,后期在美國底特律舉行的學術會議上,對人工智能進行了系統的分析。從20世紀依賴,數據技術逐步萬漢,數據庫系統建設逐步更新,數據信息整合和挖掘的水平顯著提高,很多有價值的信息被快速提取出來。由于海量信息處理的難度加大,數據挖掘和篩選技術應運而生,數據挖掘技術逐漸被人們關注和認可。數據挖掘技術的發展是與計算機技術革新、數據庫建設發展和網絡信息技術發展息息相關的。知識發現也是一個重要的相關概念,是指在海量信息中辨別出有價值的知識,這是對數據和信息的高級處理過程。數據挖掘技術是知識發現的核心技術,是從數據庫中提取特定規律的數據和信息,作為參考,進而提煉出用戶所需的最終信息和資源。
2 圖書館服務系統中應用數據挖掘技術的優勢
數據挖掘技術對于人類生活和工作的影響是十分突出的,這是一種高效便捷的數據整合和篩選技術,集成了多個領域的知識系統,目前正逐步走向成熟,將數據挖掘技術應用于高校圖書館智能體系中,十分必要。
2.1 數據挖掘技術的優勢
2.1.1 信息需求的促進
隨著網絡信息技術的快速發展,人們對于信息的需求量逐漸增加,使用層次加深,在眾多海量信息和數據中,如何將復雜的數據轉換成有價值的資源和信息是十分必要的。在圖書館系統中龐大的數據和信息資源難以計算和篩選,必須采用一種先進的技術,實現數據的整合和處理,進而篩選出有價值的資源,為讀者提供針對性的圖書服務。
2.1.2 爭取潛在讀者的需求
圖書館管理系統中,很多讀者的訪問數據都存在這里,如何將這些數據和信息進行整合至關重要,數據挖掘技術就是這樣一種技術,可以對數據進行分類處理,從而確定圖書館中那類書籍借閱量較大,讀者感興趣的書籍都是哪些類別。數據挖掘技術可以將一些隱藏的信息挖掘出來,將智能整合后的資源和信息推送給讀者,進而更好地為讀者服務。
2.1.3 提高獲取信息和數據的速度
圖書館系統要定期更新,在傳統系統使用中,對于數據和信息的處理和計算速度較慢,數據挖掘技術可以有效地避免這些弊端,計算速度極快,信息篩選能力強,使用這類技術可以顯著提高圖書館系統的各項功能。數據挖掘技術的應用可以提高圖書館獲取資源的速率,提升讀者應用體驗,提高系統反應能力。
2.2 數據挖掘技術的可行性分析
我國高校圖書館積累了很多的經驗,數據挖掘技術在實際應用中是具有可行性的。首先,我國高?,F代化建設水平逐步提高,為了發揮圖書館的價值,要充分利用信息資源,挖掘數據和信息中有價值的資源,提高數據的利用率,從而提高圖書館服務質量。圖書館喲滿足讀者的需求,要提供個性化、針對性的服務,這也是圖書推薦系統的主要功能,這就需要對現有數據和信息進行挖掘和處理,對數據進行分析,加強信息管理,組織各類數據,為圖書館的知識管理提供依據。其次,數據挖掘技術逐漸成熟也為圖書館推薦系統的逐步完善提供了可能。數據挖掘技術目前應用多種領域,包括工業生產、醫療機構、圖書管理系統等等,數據挖掘技術逐步的發展和完善,運作方式方法日趨成熟,管理方便,技術逐步革新,圖書館推薦系統應用數據挖掘技術十分可行。另外,圖書館信息化建設水平逐漸提高,數據庫建設較為完善,數據庫系統分析能力不斷增強,圖像數據庫、對象數據庫、智能數據庫逐步建設,這也為數據挖掘技術的應用提供了平臺。
3 數據挖掘算法
3.1 分類分析
對于數據分類的分析是比較基礎的,要對數據集進行訓練,要采取科學的算法進行計算,數據庫確定后要進行初步分析,做好數據類別的基本分類,要做好類別描述,要根據數據性質進行建立模型,之后要利用原有信息和數據進行研究,加強信息和數據預測。
3.2 聚類分析
聚類分析是指將數據和信息分為若干類別,主要根據分析對象的特征找出一定的規律,進而對同一類型數據進行分析,數據分布模式較為特殊,對數據之間的關系進行分析。
3.3 關聯分析
數據挖掘技術中的算法還有關聯分析,這也是基礎算法之一,主要是針對不同的數據建立一種聯系,可以是因果聯系、時序聯系或簡單聯系等等,進而實現各類數據的瞬間提取和篩選。 3.4 預測分析
對各類數據和信息進行分析,找出相關的規律,建立相應的模型,對其未來變化進行預測。
3.5 偏差分析
圖書館數據庫中的數據有的存在一些異常的特征,及時發現異常有助于對數據和信息機進行糾錯,偏差分析就是有效預防誤差的一種數據挖掘算法,進而觀察數據和信息是否合理,為圖書館服務提供科學的服務項目。
4 系統數據處理
4.1 空白數據處理
圖書館系統數據挖掘過程中要做好空白數據的處理,要保證數據挖掘的準確性。數據挖掘的首要條件就是真實和有效,如果數據表出現空值,技術人員要結合數據之間的關系,將空值補充完整,實在難以填充的要將該條數據刪除。例如每本書有一個唯一的索書號,這是數據挖掘中的是必需字段,在這類字段中不能出現空值,要根據書名查找數據庫將索引號補全。
4.2 重復數據處理
在圖書推薦系統中難免會存在一些重復記錄,這些重復記錄會應影響數據和信息的篩選,例如由于特殊原因,讀者在一天之內多次借還相同圖書,或者圖書管理員失誤導致的重復記錄,這對于數據挖掘都會產生影響,因此,數據挖掘時要做好重復數據的處理。
4.3 字段選取
數據挖掘中會選取一些字段進行分析,在選擇字段時要保證其科學性,例如借書日期、操作員、操作類型、部門代碼等都要做好處理。
5 推薦系統的功能分析
5.1 熱門書籍推薦
在實際圖書館推薦系統英勇值,有很多讀者選擇不登錄系統直接查找圖書,圖書館可以根據讀者的實際需求給讀者一些推薦,推薦一些熱門的書籍。登錄推薦系統的讀者,系統中留存其瀏覽和查閱的記錄,可以通過數據挖掘和整合確定讀者感興趣的書籍。圖書館系統根據讀者的專業類別和興趣愛好制定推薦列表。
5.2 根據讀者借閱史推薦
讀者在登錄和借閱圖書后,圖書館系統中會留存讀者的各類信息和數據,尤其是借閱過的圖書,圖書推薦系統會根據讀者的借閱史推薦給讀者適合的書籍。
5.3 瀏覽查閱推薦
推薦系統要根據讀者查閱的圖書推薦相近的書籍和刊物等等,這些功能就可以通過篩選圖書索引號挖掘來實現。
5.4 新書籍推薦
圖書館在引進新書籍后,要在系統中發布公告,使讀者了解有哪些新書籍可以選擇。
6 關鍵技術研究與改進
在圖書館個性推薦系統中,要對讀者的興趣愛好信息進行整合,要準確掌握不同讀者的閱讀興趣,捕捉讀者興趣變化,進而提高針對性的、個性化的圖書推送服務。讀者使用圖書館推薦系統時間延長,讀者的興趣容易受多種因素的影響,如環境、人物等等,系統獲取相關資源和數據就存在一定的難度。因此,圖書館推薦系統要將讀者興趣變化因素考慮在內。很多時候讀者的興趣是跟隨時間變化的,也和讀者的個人經歷和閱歷有關,傳統協同過濾推薦算法主要是在計算相似度時采用余弦相似度或皮爾遜系數等方法,如果還使用歷史數據,會導致推薦的準確度降低。
目前解決用戶興趣變化的協同過濾推薦問題可以歸納為三類方法:評分加權法、評分選擇法和基于其他領域知識方法。評分加權是在用戶的項目-評分矩陣上添加一個權重,用戶的最近借閱圖書的評分必定會比系統初期評分的權重大。該權重的調整通過在計算項目相似度和用戶預測評分的過程中體現。評分加權法具有普遍適用性,并且實現簡單、能夠較為準確的區分用戶在不同時間評分的重要性。其中,評分加權法中添加描述時間權重的方法主要有三種:模擬遺忘曲線、運用線性函數建模和運用非線性函數建模。其中,基于遺忘曲線的研究受到了學者們的廣泛青睞,本文采用模擬遺忘曲線的方法來添加權重。
在圖書館推薦系統中主要采用的協同過濾推薦算法主要是基于時間變化權重方法,同時還要綜合考量讀者借閱頻率的因素,可以添加時間和借閱頻率權重,進而充分發揮數據和信息的作用,實現個性化圖書推薦。推薦算法最好要以艾賓浩斯遺忘曲線為基礎,做好讀者歸還圖書評分和借閱次數評分。通過對艾賓浩斯記憶遺忘曲線的分析,要重視外部因素對讀者興趣的影響,進而對數據和信息進行科學分析,得出科學的結論,為讀者提供最適合的圖書。
7 結語
總之,圖書館推薦系統中使用數據挖掘技術有助于提高圖書館書籍的利用效率,數據挖掘技術是網絡信息技術的一種,在圖書館推薦系統中應用這種技術可以通過對以往數據和信息的分析,為讀者提供個性化的推薦服務,有助于調整圖書館管理方式和館藏布局,有利于為圖書館決策提供科學依據。
參考文獻:
[1] 蔡琬琰.基于數據挖掘的高校圖書館網站個性化推薦系統[J].情報探索,2011(3):88-90.
[2] 張肖回.基于數據倉庫技術的圖書館業務數據可視化監控平臺——以廈門圖書館為例[J].現代情報,2013(04):150-153+158.
[3] 聶飛霞.基于數據挖掘技術的圖書館個性化推薦系統研究[D].西安:西北大學,2013.
[4] 趙煒.數據挖掘在讀者個性化信息服務系統中的研究[D].湖北:長江大學,2016.
【通聯編輯:李雅琪】
轉載注明來源:http://www.hailuomaifang.com/8/view-14910042.htm