您好, 訪客   登錄/注冊

基于時序預測和主成分分析的電視劇熱度研究

來源:用戶上傳      作者:

  摘要:電視劇的熱度是衡量電視劇質量水平的重要指標之一,在一定程度上反映了一個國家的文化軟實力。在前人諸多研究基礎上,利用自回歸模型對收視率進行了時間序列預測,并對自回歸模型進行了平滑濾波改進,實現了更好的預測性能。之后,對10個影響電視劇熱度的因素進行了綜合分析,并利用主成分分析的方法降低維度,最終得到了綜合考慮各種因素的熱度指標。利用新定義的熱度指標對2017年電視劇進行排序,發現該指標與單一的收視率或播放量相比,確實更能反映出電視劇的綜合影響力。
  關鍵詞:自回歸模型;主成分分析;播放量;收視率;電視劇熱度
  中圖分類號:F27文獻標識碼:Adoi:10.19311/j.cnki.1672-3198.2019.10.029
  1前言
  電視劇是社會文化和潮流的重要載體,其中優秀的電視劇一直引領著時代的潮流趨勢。傳統的電視劇質量衡量指標以收視率為主,隨著“多屏播放”時代的到來,播放量也漸漸成為衡量電視劇影響力的重要指標。然而,無論是單純的收視率還是單純的播放量,都不足以客觀、全面地衡量一個電視劇的熱度。
  針對這一問題,國內有很多專家學者已經進行過研究。毋世曉等人提出視頻的點擊量和搜索次數會隨著開播時間的推移而呈逐漸下降的趨勢,而邢亞彬等人在研究成果中指出收視率可能由于樣本等原因使收視率受到較大影響。周小普等人在《多屏發展背景下網絡收視度的影響因素研究——以熱播電視劇為例》中引入了“多屏指標”來衡量上電視劇的熱度,為播放量和收視率的研究提供了非常大的參考價值。
  在前人工作的基礎上,本文建立并優化了自回歸模型,并進行了平滑濾波優化,對研究對象電視劇的收視率變化趨勢進行了預測;之后,創新性地對10個影響電視劇熱度的因素進行了綜合分析,并利用主成分分析的方法降低維度、最終得到了綜合考慮各種因素的熱度指標。
  2數據來源與預處理
  在所有的國產電視劇中,本文選取了具有代表性的電視劇樣本作為研究對象。電視劇的篩選標準主要有以下幾個方面:
 ?。?)多屏播出:在至少一個電視衛視和至少一個網絡視頻平臺上全集播出過,具有“收視率”和“播放量”兩個物理指標。
 ?。?)近三年首播:互聯網環境比較類似,不會因為網絡環境發展的差異造成對結果的影響。例如《西游記》和《還珠格格》等經典收視神劇不會在我們的考慮范圍內。
  (3)豆瓣評分高于6分,平均收視率高于1%:以這兩個指標選定了電視劇的質量標準,以口碑好、影響力較大的電視劇為研究對象。
  通過以上三個指標的篩選,最終選定了11部電視劇作為本文的研究對象,它們分別是:《女醫·明妃傳》、《三生三世十里桃花》、《瑯琊榜》、《人民的名義》、《于成龍》、《歡樂頌1》、《歡樂頌2》、《守護麗人》、《好先生》和《克拉戀人》。
  本文采集的數據都是從官方權威數據庫獲取到的,其中包含:
 ?。?)收視率數據:索福瑞媒介研究(CSM)公司公布的52典型城市收視率數據,數據提供了研究對象電視劇在播期間每天收視率。
 ?。?)電視劇信息:來源于百度百科數據,包含了電視劇的類別、主演、首播時間、主要內容等諸多電視劇相關信息。
  (3)社交網絡數據:來源于百度貼吧、微博、豆瓣和百度搜索指數等主流搜索及社交平臺,數據具有更高的真實性和全面性。
  3對收視率的時序預測和分析討論
  本文首先對選取的電視劇研究對象建立了二階自回歸模型,研究每一集收視率與前面幾集的關系。該模型的建立基于如下基本假設:
  (1)收視率具有一定的穩定性,觀眾口碑和關注程度是連續變化的,不會發生突變。
  (2)不同年份的電視劇收視率統計方法是一致的,數據之間具有可比性。
  對于口碑好、收視率高的研究對象,本文首先建立了二階自回歸模型。由于電視劇收視率是按播出天數統計的,所以在我們的模型中,描述的是某天收視率與前兩天收視率之間的關聯性。假設δt代表電視劇熱播期間第t 天的收視率,則AR(2)模型表達式為:
  δt=a+bδt-1+cδt-2
  以2017年現象級熱播劇《人民的名義》為研究樣本,利用電視劇熱播期前29天的收視率數據作為訓練集、最后3天的數據作為測試集,使用excel的數據分析工具進行擬合,得到擬合的結果為:
  δt=0.252-0.021δt-1+0.996δt-2
  該模型擬合優度為0.8911。之后在測試集上測試該模型的預測性能,最后三天的真實收視率為[6.682,6.695,6.666],預測值為[6.233,6.452,6.551]。經過計算,均方根誤差為0.179682942。通過訓練集結果和測試集結果的分析,可以看出該模型具有不錯的預測性能。
  通過對數據進一步研究發現,大部分異常點(收視率明顯低于趨勢線的日期)均為當日只播放一級電視劇的日期,故而這種異常的收視率是有一定成因的。為了進一步優化模型,降低部分收視率異常點波動性對模型系數造成的影響,本文在自回歸的基礎上,加入了移動平均的優化,對曲線進行平滑濾波,降低了異常值帶來的影響。即將原本的AR(2)自回歸模型優化為自回歸滑動平均模型。
  經過移動平均的平滑處理后,收視率的整體增長趨勢和原始數據保持一致,但異常點的影響大大降低。利用前29天的移動平均收視率作為訓練集,訓練二階自回歸模型,表達式為 δt=a+bδt-1+cδt-2 。得到的訓練集結果為:
  δt=0.123-0.621δt-1+1.610δt-2   此時擬合優度增長至0.97,兩個擬合系數均通過了0.05顯著性水平檢測。測試集的真實值為 [6.202,6.5,6.681],預測值為[6.028,6.265,6.472]。經過計算,相關系數達到0.994,均方根誤差位0.2363。由此通過對比可以看出,ARMA模型與AR模型相比,在保留數據增長趨勢的同時,弱化了異常點帶來的影響,得到了更好的擬合結果。
  4利用主成分分析建立多因素自定義熱度模型
  4.1確定熱度值影響指標
  在當前“多屏播出”的時代,分集播放量、收官前后播放量和收視率都有各自的局限性并且無法反映一部劇集準確的熱度,因而我們引出自定義的熱度計算方法。
  具體來說,在我們的模型中主要考察以下幾個方面的因素變量:
 ?。?)播放量、收視率:傳統的評價指標,衡量了觀眾觀看電視劇這一基本行為的數量。這一節中選用集平均播放量、收視率來作為每一部電視劇的收視評價指標。
 ?。?)豆瓣評論數:包括短評數與劇評數,評論越多代表更多觀眾觀看電視劇后進行了對電視劇的進一步反思。
 ?。?)豆瓣評分、評分人數:衡量了觀眾對電視劇的主觀評價,評分人數代表電視劇受關注程度。
  (4)開播前、后一個月搜索指數:衡量了觀眾對電視劇的關注度,開播前的搜索指數受到電視劇的宣傳力度、演員名氣等影響;開播后搜索指數受到電視劇內容、熱議程度等影響。
 ?。?)微博粉絲數:包括男女主微博粉絲量及電視劇官微粉絲量,我們認為演員的微博粉絲量衡量了演員的受關注程度,而受關注多的演員,即明星出演的電視劇會受到更多的觀眾關注。
 ?。?)相關視頻數:包括官方發布的預告片、新聞發布會視頻,但更多的是網友個人發布的花絮剪輯等,相關視頻越多,說明電視劇更具社會影響力,也會吸引更多潛在觀眾。
 ?。?)周邊月銷售指數:電視劇創造的商業利潤,衡量了觀眾對電視劇及劇中人物的喜愛程度。月銷售指數計算方法如下:
  月銷售指數=商品價格×該商品月銷量
  選取各周邊商品月銷售指數的最高值代表該電視劇的周邊月銷售指數。
  4.2利用主成分分析的方法建立模型
  這里通過Matlab主成分分析函數princomp實現具體步驟,利用主成分分析的方法,依照以下步驟依次進行計算分析:
  (1)計算相關系數矩陣。
  7個變量兩兩計算相關系數,一共計算33次,形成 7×7 階的相關系數矩陣
  Ar={aij|i∈1,7,j∈1,7}
  矩陣中的每個變量代表兩個因素數據的相關性。例如 aij 就表示第 i 個因素和第 j 個因素的相關性,相關性的計算方法為:
  r(x,y)=Cov(x,y)Var[x]*Var[y]
  相關性可以用excel的correl(x,y)函數計算。在本章節中,使用matlab編程求解。
 ?。?)計算主成分的累計貢獻率。
  經過計算,前4個主成分的累計貢獻率達到89375%,分別是38.34%、20.43%、16.43%和1434%,達到允許范圍內。所以以4個主成分為反應熱度水平的標準。
  (3)計算主成分載荷。
  通過計算結果反應,四個主成分的主要載荷的指標為:
  C1主成分在播放量和收視率兩個特征上具有較大載荷,說明第一個主成分主要反應的是電視劇在多屏上受關注的程度。
  C2主成分在豆瓣評論人數、微博粉絲數等相關特征上有較大載荷,說明該主成分主要反映的是電視劇在社交網絡上的影響力。
  C3主成分在搜索指數和豆瓣評分上具有較大載荷,說明該主成分主要反映出劇集口碑和觀眾的期待程度。
  C4主成分在相關視頻和周邊月銷量指數兩個特征上具有較大載荷,說明該主成分主要反映了該電視劇的周邊影響力。
  (4)得到最終結果。
  最終,該電視劇的整體影響力由四個主成分決定,權重系數由貢獻率確定,即
  Index=0.3834C1+0.2043C2+0.1644C3+01435C4
  而每一個主成分的表達式為:
  C1=0.438x1+0.596x2-0.243x3+0.192x4+0.245x5+0.164x6-0.006x7
  C2=-0.029x1+0.283x2+0.020x3-0.062x4+0.638x5+0.274x6-0.085x7
  C3=0.132x1+0.156x2-0.043x3+0.492x4+0.145x5+0.464x6+0.506x7
  C4=0.138x1+0.231x2+0.133x3-0.093x4+0.143x5+0.064x6-0.167x7
  4.3利用多元熱度評價模型進行熱度排序
  由此我們可以給出2017年熱度值前十名的電視劇榜單,2017年1-7月電視劇的實際網絡總播放量與本文得出榜單對比如表1。
  通過與2017年電視劇網絡總播放量排行榜的對比,從整體上看,本次自定義熱度值的效果較為理想,更能夠體現出一個電視劇的綜合影響力。
  5結論
  本文利用自回歸模型對收視率進行了時間序列預測,并對自回歸模型進行了平滑濾波改進,實現了更好的預測性能。本文還對7個影響電視劇熱度的因素進行了綜合分析,并利用主成分分析的方法降低維度、最終得到了綜合考慮各種因素的熱度指標。
  在后續的研究中,我們將繼續從以下幾個方面進行完善:
 ?。?)繼續完善模型,在掌握更多的數學方法和機器學習理論知識以后,可以嘗試應用人工神經網絡等非線性擬合方法來預測收視率和播放量的增長趨勢。
 ?。?)深入探究分析,對播放量和收視率的討論可以更加細致入微,在很多評價指標上可以進行量化分析、突破定性分析的局限性。
 ?。?)全面考慮各種指標,在時間精力允許的情況下進行一定的問卷調查,通過周圍人的評價來檢驗新的熱度指標的接受程度。
  參考文獻
  [1]周小普,韓瑞娜,凌姝.多屏發展背景下網絡收視度的影響因素研究——以熱播電視劇為例[J].國際新聞界,2014,(12):114-129.
  [2]侯衛星,高建中.基于因子分析法的城市低碳經濟實證評價——以太原市為例[J].企業經濟,2012,(06):15-19.
  [3]張輝,王雯聰.基于多元統計分析方法研究電視劇收視特征及影響因素[J].現代傳播(中國傳媒大學學報),2011,(06):101-103+126.
  [4]耿金花,高齊圣,張嗣瀛.基于層次分析法和因子分析的社區滿意度評價體系[J].系統管理學報,2007,(06):673-677.
  [5]何躍,蔡博馳.基于因子分析法的微博熱度評價模型[J].統計與決策,2016,(18):52-54.
轉載注明來源:http://www.hailuomaifang.com/2/view-14893199.htm

?
99久久国产综合精麻豆