數據挖掘技術在科研機構情報分析工作中的應用研究
來源:用戶上傳
作者:
摘 要 在我國的科研情報服務中,對數據的挖掘技術還存在很多的問題,本文分析大數據對信息的挖掘功能以及目前情報分析中存在的問題,并給出了相關的解決方案。
關鍵詞 數據挖掘;科研機構;情報分析
引言
在當今信息時代,信息技術被廣泛應用在企業、科研院所和政府部門等機構,隨著各項工作的開展,積累了海量的、不同形式的數據資料。而在科研機構開展科研活動過程中,需要通過大數據的技術手段,對這些隱含著各種各樣有用的信息數據進行采集、分析、處理、存儲等工作,將其轉化為有價值的信息,為決策服務,并指導科研人員研發更多的產品,不斷提升技術,提升科研成果的價值和科研機構的影響力?;谶@種需求,數據挖掘技術開始出現并得到了廣泛的關注和應用。
1 數據挖掘技術概述
1.1 數據挖掘的定義
數據挖掘(Data Mining),也叫數據開采,數據采掘等,是按照既定的業務目標從海量數據中提取出潛在、有效并能被人理解的模式的高級處理過程[1]。數據挖掘在科研領域也稱為數據庫中的知識發現,是一個利用各種算法和工具在海量數據中發現有效知識的過程。在科研機構中數據挖掘基于的環境是大型科技文獻數據庫和專利數據庫,它應用的對象是大規模數據集,處理的數據往往以GB、TB計,甚至更大。
1.2 數據挖掘技術概述
數據挖掘技術主要包含統計學、數據庫、人工智能等專業學科領域。數據挖掘技術有數據庫、対象、任務、方法與技術、應用等幾類。其中數據庫技術包含:關系、歷史、空間、模糊四種數據挖掘類型;數據挖掘對象包含:文本、多媒體、Web數據挖掘三類;按數據挖掘任務分類包含:關聯分析、時序模式聚類、分類、偏差檢測、預測等技術;按數據挖掘的方法和技術分類包含:歸納學習、仿生物技術、統計分析、公式發現、模糊數學等類別。
利用數據挖掘進行數據分析常用的方法主要有分類、回歸分析、聚類、關聯規則、特征、變化和偏差分析、Web頁挖掘等,它們分別從不同的角度對數據進行挖掘。目前,數據挖掘技術有兩種主要的類型,一種是對象類型,另一種是功能型。前者主要是針對多媒體數據、時間序列數據、空間數據。后者主要有描述和預測的模式,描述模式分為、序列、聚類、關聯模式,預測模式主要時間序列模式、分類模式、回歸模式等。
1.3 數據挖掘技術研究現狀
數據挖掘技術近年的研究方向主要集中在基礎理論研究、大數據挖掘研究、圖挖掘研究及社交網絡分析等領域。在基礎理論研究中,大多是根據實際的應用改進或提出新的分類、算法,以新技術解決現實問題;大數據挖掘是當前的研究熱點,其研究領域的進展體現在可擴展性算法、并行性算法、分布式算法等幾個方面;圖挖掘研究主要集中在圖模式挖掘和基于圖的學習算法研究方面;社交網絡分析研究主要集中在網絡結構分析、群體行為和影響力、建模以及網絡信息傳播分析四個方面,近幾年情報研究人員在社交網絡研究方面開展的研究比較多,例如社交推薦、社交搜素等。
2 數據挖掘在情報分析工作中的應用
2.1 成果查新
在科研項目評估過程中,為了盡量避免單純依靠同行主觀評議,在決策過程中將基于數據釆集的技術預測與同行評議相結合,通過針對大型科技文獻和專利數據庫的數據挖掘方法的研究,在同行評議過程中提供數據和知識支持[2],使評議專家可以從眾多信息中提取出有用信息,做出正確有效的判斷,從而增強科研項目評估的科學性,提高科研管理水平。
2.2 專利情報分析
文本挖掘(Text Mining)作為近年來的新興技術:已經廣泛地應用于各個領域,特別是在專利情報分析可視化方面有集中體現。文本挖掘的主要目的就是發現在大文件資料中的隱含及有用的信息據知識庫中的知識源數據。文本挖掘基于知識庫中的知識發現理論(KnowledgeDiscovery in Database)提出,主要應用在結構化或半結構化的文本中如網頁、電子郵件等,文本挖掘運用了多種計算機輔助分析技術如文本分制、摘要提取、特征選擇、詞語關聯、聚類、主題識別及信息映射等( text segmentation, summaryextraction: feature selection: term associationcluster generation, topic identification: andInformation mapping)[3]。
2.3 競爭情報分析
數據挖掘技術還應用在企業競爭情報分析工作中??蒲袡C構要想獲得最新的研究方向、潛在的科研合作信息、了解本領域的各研究機構組織構成,基于大數據、web網絡的競爭情報分析是數據挖掘技術的另一項重要應用。隨著科研領域的不斷細分和專業化程度的加深,表面上看沒有聯系的文獻,如不存在互引、共引或其他相關文獻條件的文獻,經過數據挖掘,卻可能找出某種能引致新知識產生的潛在的關聯關系,基于非相關文獻的知識發現方法可用來挖掘科研機構潛在的合作趨勢,發現科研機構之間潛在的合作和交流活動。
2.4 科研管理
目前,在科研機構的科研管理過程中使用數據挖掘技術主要體現在以下幾個方面:①挖掘整理單位科技研究過程中的有價值數據,建立自編數據庫,通過大量數據的統計分析得出圖表和趨勢圖,對科研課題數據進行分析,判斷經費執行得是否滿足序時進度,有的放矢地進行整改,提高科研管理效率;②對歷年科研用品采購數據的分析,提前預估需求,預算下一年的采購金額,按分類提前做好常規物資的儲備;③對實驗數據的挖掘能掌握實驗規律,降低失誤率,減少試驗次數,節約科研經費;④全面分析用戶需求和使用習慣,科研數據管理人員還可以立足于數據運維服務,提供并衍生多種服務,給科技人員帶來全新的使用體驗。
3 結束語
隨著科技的進步,信息挖掘技術的研究和應用將會產生更多新的理念和思想,這些技術都將為情報分析服務,為科技研發服務。未來的數據挖掘和情報分析,將在科研機構發揮更加重要的作用。
參考文獻
[1] 劉維.數據挖掘中聚類算法綜述[J].江蘇商論,2018,(07):120-125.
[2] 朱東華,楊丹丹,袁軍鵬.數據挖掘技術在科研成果評估系統中的應用[J].科學學與科學技術管理,2003,(01):31-33.
[3] 李慧,師洪波.專利情報分析在科研項目立項中的應用研究[J].圖書館學研究,2011,(21):90-93.
轉載注明來源:http://www.hailuomaifang.com/1/view-14900450.htm