網絡搜索數據與CPI的關系文獻回顧
來源:用戶上傳
作者:
摘 要:近年來,網絡搜索數據日益受到重視,它激發了學者們利用網絡搜索數據對經濟行為的相關性研究。本文著重梳理了國內網絡搜索數據與CPI的文獻,從數據的來源、網絡搜索指數的合成、模型構建方法、研究結論等方面進行了研究,總結了該領域研究的關鍵點并對統計部門提出了建議。
關鍵詞:文獻回顧;網絡搜索數據;CPI
基金資助:獲得北京教委科研項目《基于網絡搜索數據的北京CPI的預測研究》(編號SM201311417008)資助。
一、引言
隨著信息技術的快速發展,互聯網用戶呈逐年遞增趨勢,人們的多種活動從線下逐漸轉移到線上,互聯網用戶的每一次點擊、每一個操作都能夠被記錄下來,形成依托于互聯網的大數據,它反映了人們的行為、態度,一定程度上是現實世界在網絡的映射。搜索引擎是互聯網早期就存在的且直到現在都必不可少的一種應用形式,用戶在搜索引擎網站的搜索框里的每一次關鍵詞或句子的輸入行為都被網站所記錄下來,形成了基于搜索引擎的網絡搜索數據,這種類型的數據被越來越多的學者所重視,較早的有利用網絡搜索數據研究失業率、流感的預測,之后的研究擴展到經濟領域的諸多現象如汽車銷量、游客人數、股票市場價格等。
居民消費價格指數(CPI)反映的是一個國家的物價水平,衡量的是一個國家的通貨膨脹程度,學者已經在探索如何利用網絡搜索數據構建模型,提前一段時間來預測CPI,有鑒于此,本文旨在梳理國內學者對網絡搜索數據與CPI之間的關系,從二者關系的機理、研究領域、研究方法等方面深入分析,以期為數據統計部門能運用大數據的方式準確、提早預測CPI,改變傳統的線下大量人工采集數據的方式提供一定的支持。
二、文獻基本情況
本文以“網絡搜索數據”、“搜索數據”加上“CPI”、“消費者價格指數”為關鍵詞,在中國知網上共搜索到14篇中文論文,這些論文發表的年限主要集中在2012年到2018年,以2017年的論文數量最多,有5篇,占到了1/3,論文的形式有碩士、博士學位論文及期刊論文。這些文獻的研究主題多是網絡搜索數據對CPI的預測研究、二者的關系研究、關鍵詞的篩選、方法研究等。
三、網絡搜索數據對CPI的預測研究
去掉同一作者重復的研究內容或者是不相關的內容,以下對文獻按照發表年代進行梳理。
張崇等(2012)應該是國內最早研究網絡搜索數據與CPI關系的,他們認為網絡搜索數據是研究宏觀經濟問題的微觀數據基礎,通過構建網絡搜索數據與CPI的概念模型,運用Google Insight2004年1月至2009年8月的搜索數據及中國國家統計局的CPI數據,揭示了網絡搜索數據與CPI之間存在的相關關系及先行滯后關系,構建的模型能夠提前一個月預測CPI,并且對CPI轉折點有一定的預測能力。
孫毅(2014)的研究并不是主要針對CPI的,而是尋求構建一種比較有效的網絡搜索指數合成方法,它以消費者物價指數為例,比較逐步回歸法和主成分分析法在構建搜索指數合成方面哪個更能預測CPI的走勢,結果表明主成分分析法是一種比較好的方法。
王睿(2015)根據互聯網用戶關注的重點所對應的網絡搜索行為,把經濟形勢指數、國家政策指數和居民消費指數三類百度搜索數據進行合成,建立搜索數據與總CPI、食品類CPI、服務類CPI的回歸模型,實證結果表明居民的不同關注重點及行為與CPI的變化有不同時長的先行性,對不同類型的CPI的影響也是有差異的。該研究在搜索指數合成和CPI的類別上有自己的獨特之處。
董倩(2016)以北京的霧霾經濟為研究對象,利用網絡搜索指數研究霧霾經濟與CPI的相關性。文章選取與霧霾經濟有關的關鍵詞,經過多次篩選找出四個關鍵詞,并選取25個月的四個關鍵詞的百度搜索指數為自變量,把中國國家統計局網站上的CPI數據作為因變量構建預測模型,接著采用3折交叉驗證技術,運用支持向量機和線性回歸兩種方法進行模型擬合,擬合結果表明,支持向量機的方法擬合結果與穩定性都較好。文章最后認為霧霾經濟對CPI的影響是間接的。
董莉等(2017)找出93個關鍵詞5年半的百度指數數據,運用Elastic Net懲罰因子的分布滯后模型,構建了CPI實時預測模型,驗證了全國、城鎮和農村的CPI的實時預測效果,結果表明模型的實時預測效果比較好。
劉寬斌、張濤(2018)認為商品價格變動的信息在不同的媒介平臺上的傳播,激發了人們對信息不確定性進行驗證的心理,而搜索引擎是一個很好的驗證工具,人們對信息越不確定,在搜索引擎上進行搜索的行為就越頻繁,因此認為網絡搜索數據與CPI是有關聯的。文章基于價格決定理論,利用不同數據周期長度形成的不同頻率的百度指數,運用混頻抽樣數據模型 (MIDAS),分析比較日網絡搜索指數對月度CPI的預測模型,實證結果表明盡管兩種數據的頻率不同,高頻的網絡搜索數據能夠提前半個月預測CPI并且有較高的預測精度,同時對CPI趨勢中“拐點”的捕捉有較高的成功率,該方法主要預測短期CPI趨勢及拐點。
殷三杰(2018)的創新之處在于沒有單獨利用網絡搜索數據來預測CPI,而是同時利用政府統計數據和網絡搜索數據構建模型來預測CPI。文章首先利用文本挖掘方法及時差相關分析法篩選關鍵詞,接著使用逐步回歸分析、Adaptive-Lasso算法、主成分分析三種降維方法進行比較,用于選擇變量,之后用訓練集和測試集擬合神經網絡模型,構建出含有網絡搜索數據的經改造的CPI預測模型,該模型能夠提升CPI的預測效果。
四、文獻討論
通過對國內的相關研究,本文發現利用網絡搜索數據對CPI的研究已經形成了一定的成果,學者們普遍利用百度和谷歌的搜索數據作為數據來源,對網絡搜索數據與CPI的關系從理論上進行了一定程度的論述,在關鍵詞的篩選、搜索指數的合成及模型的方法上都有了各種各樣的探討,下面是本文對此類研究關鍵點的總結。 ?。ㄒ唬?合理選用關鍵詞
要準確、提前預測CPI,關鍵詞的篩選非常重要,關鍵詞的篩選可以是利用CPI統計范圍內的商品名稱或者是宏觀、微觀等經濟形勢的詞語,隨后是對關鍵詞的網絡搜索指數與CPI的趨勢數據進行相關性分析,以確定關鍵詞和CPI的相關程度。
(二) 構建網絡搜索合成指數
關鍵詞篩選完畢后,要考慮用什么樣的方法構建網絡搜索合成指數,它是構建CPI預測模型時需要明確自變量是什么的一個關鍵步驟,因為不可能把所有關鍵詞的網絡搜索數據不經過加工直接變成自變量,這樣的自變量無法共同體現CPI的整體趨勢,只能反映一個側面,會導致模型結構不合理,擬合效果差,因此,有必要構建網絡搜索合成指數。目前,主要有三種方法,一是簡單加總法,不考慮權重,直接把不同關鍵詞的搜索量進行簡單加總構建網絡搜索合成指數;二是分類合成法,用不同規則對關鍵詞進行歸類,比如按照宏觀指標或者微觀指標,或者按照關鍵詞搜索數據的時滯性等進行歸類合成;三是降維法,利用關鍵詞搜索數據之間的相關性,運用主成分分析、因子分析等方法進行降維,把多個變量降維成幾個因子,并根據因子在方差累積貢獻率中所占比重計算權重,這種方法可以通過運行軟件得到因子的數量和權重的大小,較為客觀。
(三)比較不同模型的適用條件,構建預測模型
利用網絡搜索數據構建預測模型的方法有很多種,例如支持向量機、時間序列、線性回歸等,各種方法的適用條件不一樣,模型的穩定性、擬合效果也不一樣,因此,平常需要注意積累,總結不同模型的使用界限、擬合效果,以便使用時能夠快速選用。
五、建議
?。ㄒ唬淞⒋髷祿季S
在大數據時代背景下,數據的產生更多的來自于互聯網用戶自發自動的行為,而這些行為能夠被信息技術完全記錄下來,數據已經成為資產,它不僅蘊含著巨大財富,也重構了我們對世界的認識。無論是宏觀還是微觀領域,機構或者組織都必須樹立大數據思維,學會利用網絡數據,改變過去傳統模式下數據采集、加工、應用的方式。
(二)建立新的CPI統計方法,成為標準的制定者
目前CPI統計方法是國際主流的方法,但這不意味著我們不可以進行大膽嘗試。國內外學者們已經做了大量的研究,可以供統計部門借鑒。我國的統計部門可以借此深入下去,利用傳統數據融合互聯網數據或者純粹運用互聯網數據的方法來重構CPI的統計方法,待該種方法成熟時,向全世界推廣,成為該領域標準的制定者。
參考文獻:
[1]張崇,呂本富,彭賡,劉穎.網絡搜索數據與CPI的相關性研究[J].管理科學學報,2012,15(07).
[2]孫毅,戴維,董紀昌,呂本富.基于主成分分析的網絡搜索數據合成方法研究[J].數學的實踐與認識,2014,44(21).
[3]王睿.基于搜索引擎的消費者行為對居民消費價格指數的相關分析[J].現代商業,2015(14).
[4]董倩.基于網絡搜索數據的霧霾經濟與CPI相關性研究[J].調研世界,2016(12).
[5]董莉,彭凱越,唐曉彬.大數據背景下的CPI實時預測研究[J].調研世界,2017(08).
[6]劉寬斌,張濤.利用網絡搜索大數據實現對CPI的短期預報及拐點預測——基于混頻抽樣數據模型的實證研究[J].當代財經,2018(11).
[7]殷三杰.加入網絡搜索數據的居民消費價格指數預測[D].西北師范大學,2018.
作者簡介:
付麗麗(1975.02-) ,女,河南鄭州人,博士,講師,北京聯合大學商務學院,研究方向:互聯網經濟、企業管理。
轉載注明來源:http://www.hailuomaifang.com/3/view-14942011.htm