您好, 訪客   登錄/注冊

基于Web數據挖掘技術

來源:用戶上傳      作者: 豐新秋

  摘要: 計算機和網絡技術的發展,使得信息的發布與傳播不再受到時間和空間的限制。然而,網絡在帶來大量信息的同時,也帶來了很多問題:諸如信息過量難以消化;信息真假難以辨識;信息形式不一致等等。解決這些問題可以將傳統的數據挖掘(Date Mining)同Web結合起來,即從Web文檔和Web活動中抽取用戶感興趣的潛在的有用模式和隱藏的信息,為用戶提供具備自適應性和智能的信息服務。
  關鍵詞 ;數據挖掘; web;挖掘;網絡技術
  中圖分類號:G642文獻標識碼:A文章編號:1003-2851(2009)12-0174-01
  
  近年來,數據挖掘引起了信息產業界的極大關注,其主要原因是存在大量數據,可以廣泛使用,并且迫切需要將這些數據轉換成有用的信息和知識。數據挖掘是面向發現的數據分析技術,通過對大型的數據集進行探查。可以發現有用的知識,從而為決策支持提供有力的依據。
  
  一、 Web數據挖掘定義及分類
  
  Web數據挖掘(Web Date Mining),簡稱Web挖掘,是數據挖掘技術在Web環境下的應用,是從數據挖掘、計算機技術、信息科學等多個領域進行的一項技術。
  Web 數據挖掘的分類根據數據挖掘對象的不同可以將Web數據挖掘分為Web 內容挖掘、Web 結構挖掘和Web 訪問信息挖掘三類(見圖1)。Web 內容挖掘就是指從Web 的文檔中發現提取有用信息; Web 結構挖掘是指對html 頁面間的鏈接結構進行挖掘; Web 訪問信息挖掘是從網絡訪問者的交談或活動中提取信息。
  
  二、 Web數據挖掘的過程
  
  數據挖掘的過程可以分為6個步驟:
  (一)理解業務:從商業的角度理解項目目標和需求,將其轉換成一種數據挖掘的問題定義,設計出達到目標的一個初步計劃。
  (二)理解數據:收集初步的數據,進行各種熟悉數據的活動。包括數據描述,數據探索和數據質量驗證等。
  (三)準備數據:將最初的原始數據構造成最終適合建模工具處理的數據集。包括表、記錄和屬性的選擇,數據轉換和數據清理等。
  (四)建模:選擇和應用各種建模技術,并對其參數進行優化。
  (五)模型評估:對模型進行較為徹底的評價,并檢查構建模型的每個步驟,確認其是否真正實現了預定的商業目的。
  
  三、Web 數據挖掘的常用工具
  
  Web 數據挖掘工具如果按用途分, 可分為: Web 文本信息挖掘工具、用戶訪問模式挖掘工具或用戶導航行為挖掘工具和綜合性的web分析工具。Web 文本信息挖掘工具主要完成兩方面的功能: 信息檢索和對文本的分析。IBM 公司的產品Intelligent Miner 中的web 挖掘工具Intelligent Miner for Text 就是比較好的文本信息挖掘工具。用戶模式挖掘工具通常實現的方法是對Sever Logs、Error Logs 和Cookie Logs 等日志文件分析挖掘出用戶訪問行為、頻度和內容等信息, 從而找出一定的模式和規則。由Sstphen Tumer 博士編制的免費個人軟件Analog 是一個用來分析Server Logs 的工具。
  
  四、數據挖掘的應用現狀
  
  數據挖掘是一個新興的邊緣學科,它匯集了來自機器學習、模式識別、數據庫、統計學、人工智能以及管理信息系統等各學科的成果。多學科的相互交融和相互促進,使得這一新學科得以蓬勃發展,而且已初具規模。在美國國家科學基金會(NSF)的數據庫研究項目中,KDD被列為90年代最有價值的研究項目。人工智能研究領域的科學家也普遍認為,下一個人工智能應用的重要課題之一,將是以機器學習算法為主要工具的大規模的數據庫知識發現。盡管數據挖掘還是一個很新的研究課題,但它所固有的為企業創造巨大經濟效益的潛力,已使其很快有了許多成功的應用,具有代表性的應用領域有市場預測、投資、制造業、銀行、通訊等。
  美國鋼鐵公司和神戶鋼鐵公司利用基于數據挖掘技術的ISPA系統,研究分析產品性能規律和進行質量控制,取得了顯著效果。通用電器公司(GE)與法國飛機發動機制造公司(sNEcMA),利用數據挖掘技術研制了CASSIOP.EE質量控制系統,被三家歐洲航空公司用于診斷和預測渡音737的故障,帶來了可觀的經濟效益。該系統于1996年獲歐洲一等創造性應用獎。
  中國的公安部門也在研究利用KDD技術總結各類案件的共性和發生規律,從而在宏觀上制定最有效的社會治安綜合治理的方案和措施;在微觀上指出犯罪人的特點,劃定罪犯的范圍,為偵破工作提供方向。
  
  五、 結 語
  
  網絡下的數據挖掘和個性化智能服務都還處于發展初期,還沒有形成比較成熟的理論,尤其是在Web挖掘的實際應用方面所做的工作較少。對于某一特定領域的研究人員來說,由于他們的研究領域相對固定,挖掘其信息需求相對容易,但對普通用戶來說,由于其本身的動態性與不確定性,對其興趣模型進行挖掘還是一個難題。隨著信息科學技術的發展,作為一種獲取知識的有效手段,Web挖掘的方法和應用將得到更深更廣的研究,這對信息服務機構提高信息服務水平有著深遠的意義。


轉載注明來源:http://www.hailuomaifang.com/9/view-914992.htm

?
99久久国产综合精麻豆