您好, 訪客   登錄/注冊

基于Python聚焦型網絡爬蟲的影評獲取技術

來源:用戶上傳      作者:

  摘要:在大數據的環境下,網絡資源越加豐富,傳統的搜索引擎已經不能夠滿足大眾獲取信息的需求,隨著計算機逐步的發展,網絡爬蟲的出現進入了人們的視野。本文主要講述了網絡爬蟲的概念、模塊以及操作流程,并通過給定的網址快速爬取影評信息,進行分詞做成詞云圖形式展示出來。
  關鍵詞:Python  爬蟲  影評  正則表達式  詞云
  當今互聯網技術迅速發展,出現了包括大數據和云計算等等新型的技術,在如此龐大的數據量中獲取自己想要的需要耗費大量的時間,搜索的結果準確率也不是很高。本文通過利用Python爬蟲分類中的聚焦型爬蟲網絡系統,在指定的網頁下抓取相關的信息。在本文的實驗中通過在電腦網頁中以手機用戶的身份抓取貓眼網中最新電影《悲傷逆流成河》的影評信息,成功的爬取后保存到本地,接著利用jieba分詞對下載好的影評信息進行過濾篩選,將高頻率出現的詞語通過影評詞云圖的形式展現在面前。這樣的爬取信息大大的提高了爬取信息的準確性,提高了資源的利用率,節約了查找信息的時間,真正的實現了有目的性的抓取信息。
  一、基于Python的聚焦型網絡爬蟲架構
 ?。ㄒ唬┚W絡爬蟲的定義及分類
  網絡爬蟲,又稱網頁蜘蛛,是一個功能強大的能夠自動提取網頁信息的程序。它模仿瀏覽器訪問網絡資源,從而獲取用戶需要的信息。網絡爬蟲主要分為四類:通用型爬蟲、聚焦型爬蟲、增量型爬蟲、深層爬蟲。
 ?。ǘ┕ぷ髁鞒?
  聚焦型網絡爬蟲的工作流程如下:第一:找出初始種子URL的集合.第二:在該集合中將相應的url從確定的網站下載到本地,將相同的url隊列放在一起。第三:對已經下載好的數據進行分析處理。第四:重復第二第三步驟,直到將所有的url進行完全抓取。
  二、數據獲取
  本文采用Python網絡爬蟲來進行處理,由于貓眼是一個反爬蟲的網站,所以在做網絡爬蟲時,還需要進行瀏覽器訪問模擬,通過對網頁源代碼的分析,用正則表達式來獲取所需數據。所以本實驗以爬取貓眼最新電影影評為例,詳細講解Python聚焦型爬蟲的實現原理。
 ?。ㄒ唬╉撁孀ト?
  根據指定的url,抓取貓眼網電影《悲傷逆流成河》頁面。通過建立連接,發送HTTP請求.利用Re-quests建立與服務器的連接,當服務器接收到請求后,返回相應的HTTP應答。
 ?。ǘ╉撁嫣幚?
  進行頁面處理時,首先需要對HTML相關的源代碼進行過濾和處理,分析出需要的信息,然后再對分析出的結果進行整合。對應網頁的HTML結構文檔。
 ?。ㄈ祿梢暬治?
  數據可視化是數據分析很重要的一部分,它能夠從繁雜的數據中更直觀更有效的獲取信息.當獲取到影評信息之后,需要對數據進行可視化,首先需要做的是數據的清洗。第一,將所有的評論轉化為字符串格式。第二,利用正則表達式匹配中文,去掉所有的標點符號。第三,對數據進行中文分詞操作,并去掉數據中沒有參考價值的虛詞,實驗中使用的是Jieba分詞。第四,最后調用WordCloud詞云包,將數據用詞云進行顯示:plt.show ()
  三、爬蟲實現
  本文以爬取貓眼電影《悲傷逆流成河》影評為例,詳細講解Python爬蟲的實現原理.
 ?。ㄒ唬┳ト【W頁數據
  步驟一:要想爬取網頁,我們首先將其下載下來。我們選擇最基礎的方式使用Python的urllih模塊進行下根據url獲取數據。
  步驟二:需要對得到的html代碼進行解析,提取我們需要的數據。
  步驟三:存儲下載好的影評到指定文件夾。
  下載數據的起始時間為2018年11月3日零點,截止時間為2018年11月3日中午12點。共60條評論數據。
 ?。ǘ┯迷~云進行展示
  步驟一:導入jieba等模塊,并獲取所有評論,獲取已經下載好的影評。
  步驟二:設置分詞,設置屏蔽詞。對數據進行中文分詞操作,并去掉數據中沒有參考價值的詞包括:電影、一部、一個、沒有等等。
  步驟三:導入背景圖。導入的背景圖片只用于獲取圖片內形狀,非在背景圖片上加影評。本次作業導入的是葫蘆娃背景。
  步驟四:將分詞后數據傳入云圖,并保存。調用WordCloud詞云包,將數據用詞云進行顯示。以下是《悲傷逆流成河》詞云圖。
  四、 結束語
  網絡爬蟲作為新型獲取目標信息的工具,其價值和使用前景都非常的大。本文中,針對性地爬取《悲傷逆流成河》影評數據,確保了數據的真實性與最新性,避免了無關數據的干擾.不過,若爬取的內容過多,Python執行會花費很多時間,所以本文只獲取60條影評數據。如果結合Python的多線程技術,再將一些諸如下載緩存優化和并發性等因素考慮在內的話,它的性能將會得到很大的改善。
  參考文獻:
  [1]高宇,楊小兵.基于聚焦型網絡爬蟲的影評獲取技術[J].中國計量大學學報,2018,29(03):299-303.
  [2]田曉玲,方園,賈民政,趙熙雅.基于數據分析的關鍵詞類網絡爬蟲設計[J].北京工業職業技術學院學報,2018,17(04):36-43.
  [3]沈漪,華敏敏.基于Python正則表達式的彩票信息爬取[J].安徽電子信息職業技術學院學報,2018,17(05):19-21.
  [4]羅咪.基于Python的新浪微博用戶數據獲取技術[J].電子世界,2018(05):138-139.
 ?。ㄗ髡邌挝唬涸颇蠋煼洞髮W泛亞商學院)
轉載注明來源:http://www.hailuomaifang.com/3/view-14847259.htm

?
99久久国产综合精麻豆