大數據時代數據處理過程中的風險控制
來源:用戶上傳
作者:
摘 要 文章通過分析現階段市場主流大數據處理方式,及該流程下易產生的數據失真原因和導致的后果,提出相應的有針對性的處理方式,從而討論大數據處理過程中的風險控制可行性,并對未來用戶數據隱私保護時代和海量數據背景下如何增強數據有效性收集提出部分設想。
關鍵詞 大數據挖掘;黑天鵝;樣本免疫;血字數據
中圖分類號 G2 文獻標識碼 A 文章編號 1674-6708(2019)235-0120-02
1 大數據處理現狀
目前行業內大數據常用的處理流程可以概括為四步,分別是數據采集、導入和預處理、統計分析以及挖掘。
1.1 數據采集
大數據的采集是通過多個數據庫介質來接收發自客戶端的數據(隨著智能手機的普及,App端口采集已經成為主要來源),且數據采集者可以通過這些數據庫來進行簡單的查詢和處理工作。在大數據的采集過程中,其主要特點和挑戰是并發數高訪問量在峰值時達到上百萬或千萬級別,如“天貓雙11”和春運搶票以及各種網購平臺促銷時的“秒殺”活動,都要求采集端部署大量數據庫才能支撐,負載均衡和分片處理將是采集端設計的重點考量范圍。
1.2 導入預處理
很多業內流行的做法是在采集端進行前端數據導入的大型分布式匯總,且在分布式儲存群中進行數據的清洗和和預處理,甚至嵌入流式計算步驟。此步驟要注意的是百兆、千兆每秒的數據量處理難度較大。
1.3 統計分析
傳統統計與分析的需求端運用EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright。實際運用過程中我們常遇到批處理,或者基于半結構化數據的需求,這點應當區分考慮,同時統計、分析步驟涉及到的數據量十分巨大,近年來隨著數據采集量的爆炸式增長,系統資源占用往往沒有上線,這點硬件布局時應當充分考慮。
1.4 挖掘
市場上目前挖掘方式,主要是在現有數據根據客戶需求進行基于各種算法的計算,從而起到預測的效果,高級別數據分析的需求,也往往是基于初級算法的嵌套性疊加。往年典型算法有用于聚類的K-Means、用于統計學習的SVM和用于分類的Naive Bayes,使用工具有Python、Hadoop等,該過程的難點往往是精準把握用戶數據需求,再基于需求的基礎之上進行算法的調整。
2 大數據失真的危害及風險
在處理流程中,采集、導入預處理、統計分析,都可以通過預設數據庫完成。而真正用于企業營銷、戰略、市場分析的核心數據挖掘階段則是完全無法具體量化,可以說不同行業和不同市場階段有著截然不同的數據庫需求,如果我們挖掘和提煉數據的過程嚴重或者部分失效,則在數據分析的蝴蝶效應之下得出的結果一定與事實情況是天壤之別。
2014年電影《黃金時代》和2018年電影《阿修羅》大數據端在票房和市場預測方面失算的案例充分說明大數據的推演失真所造成的結果是災難性的。隨著“關系鏈和數據流應成為企業估值的新核心指標”這一把數據價值提升到前所未有的理論誕生。各中商業資本開始瘋狂的引入大數據概念,各種相對應所謂的數據分析公司應運而生。然而大數據真的那么神奇嗎?是否真的可以像宣傳的那樣神奇到對目標無孔不入地分析?據資料統計《黃金時代》在百發有戲的發布會上,百度大數據部產品規劃負責人祖崢介紹了百度票房預測產品,通過百度搜索數據、新浪微博數據以及10年來電影行業數據、同類電影數據等,以及電影受眾分析,預測《黃金時代》票房將在2億至2.3億之間。由此可見其數據挖掘階段的主要參數是“百度搜索”“新浪微博”“電影行業歷史數據”等存量數據指標,雖然算法筆者個人不得而知。但作為一個軟件行業從業人員從數據源的角度分析:首先百度搜索和新浪微博等支流平臺其收集的只是所謂關注度數據,我們無法將關注真正轉化為票房;其次,中國電影在票房統計上有先天的缺陷,影院對票房的瞞報早已成為業內的潛規則,而21世紀初我國才開始建立票房統計制度,其時間周期不過10年左右。最后受眾分析方面,發行方和百度數據利用所謂的問卷調查為依據樣本,推演出數據結果殊不知這樣的數據嚴重受制于“受眾免疫”現象。(受眾免疫:泛指調查樣本在已知條件下對調查行為采取的與實際不符的行為方式,其結果會產生調查數據折射)。
3 大數據處理過程中的風險控制步驟
大數據究其核心無外是用過去推斷未來?;蚴怯眠^去既定的已經發生的同類事件推測未來與之相似事件的結果。其誕生就飽受爭議。
筆者認為,合理控制數據采集和統計分析過程中的數據源精準度是減小和控制大數據推斷結果風險的核心要素。
具體步驟為:
1)淡化模糊數據的收集,精確采集源重點收集血字數據。
隨著互聯網技術的全面運用,海量數據的產生已遠遠大于存儲介質的容量,如果“大數據”的收集只是一味求“大”不求“精”,那么所收集的混沌數據將毫無意義,即:掌握了所有數據其實等于沒掌握數據。而血字數據則不同,(所謂血字數據是指反應事物本身聯系無法掩飾和修飾的唯一性數據如:居民身份證號碼、銀行卡等級、衛星定位點等等無法或者掩飾難度極大的數據。其得名于柯南道爾福爾摩斯系列小說中經典故事“血字的研究”)。在法律和保護消費者范圍內合法收集關鍵數據可以直接提高大數據的采集精度和推斷廣度,在源頭上解決數據收集過程中巨量的采集和超高的服務器荷載。不但節約企業硬件成本而且還能直觀提高采集效率,減少決策過程中蝴蝶效應的發生概率。
2)增強數據挖掘過程中的企業獨特性,引入先進分析方法和現代統計學、概率分布矩陣經驗來降低數據挖掘過程中小概率事件的發生風險。
市場調查公司AC尼爾森發布的“尼爾森數據”就是獨特數據挖掘的典范。即對數據采取“質量控制”。未來大數據時代尤其是金融領域,面對相同的數據不同的處理方式和挖掘手法可能得出的結果完全不同。正如喬治·索羅斯在《金融煉金術》一書中提到:在認識函數中,參與者的認識依賴于情鏡;在參與函數中,情境受參與者認知的影響。 3)提出控制預警方案以應對大數據時代的“黑天鵝事件”。
大數據反對派的關鍵王牌就是黑天鵝現象,持此觀點者普遍認為黑天鵝現象不可預知如“911事件”“印度洋海嘯”“日本核泄漏”等極端事件無法通過歷史所謂的大數據和經驗去預知,而其造成的巨大風險將會嚴重透支常規事件中企業所取得的利潤。簡言之就是大的災難造成的損失可能使正常事件積累的財富一夜化為烏有。但他們恰恰忽略了歷史上發生的黑天鵝事件本身就是大數據分析的最好素材基礎,正式因為其獨特性和唯一性反而造就了上文所說的血字數據,黑天鵝事件的大數據分析往往能夠更為精準,究其原因很大程度上是因為事件本身的獨一無二。少數的黑天鵝事件幾乎能夠解釋這個世界中的所有事情,從思想的勝利到歷史事件的變遷,到我們的個人生活。我們無法避免黑天鵝事件的發生,但恰恰是對以往事件的分析和統計研究可以避免和減少未來新的黑天鵝事件帶來的損失。這一點恰恰是黑天鵝事件中風險控制的靈魂所在。
4 結論
倫敦皇家學院的David Hand教授講過一句話,“現在我們有了一些新的數據來源,但是沒有人想要數據,人們要的是答案”。大數據已經到來,但它并沒有帶來新的真理?,F在的挑戰是要吸取統計學中老的教訓,在比以前大得多的數據規模下去解決新的問題、獲取新的答案。自2018年歐盟新的用戶隱私法規實施以來,用戶日益覺醒的隱私保護觀念和海量數據中的有效性處理,已經成為了大數據采集、導入、預處理和統計分析環節中的重要瓶頸。對此在未來的數據分析采集中,我們應當避免目前階段我國主流數據收集收集公司統計學和市場調查般的海量堆砌數據,再花大的精力進行后期處理;這種方法在早期PC端用戶時代和智能手機崛起初期有明顯效果,那時數據生成量有限且用戶對個人敏感數據的保護性并不十分強烈,而今我國已經成為世界上數量最多的移動端用戶保有量國家,且2020年5G時代將全面來臨,巨量的峰值數據和兆億般的系統資源占有量負載,現有海量數據收集篩選法將會無法適用。對此,我們必須布局未來,從思路上進行有效數據的挖掘處理機制探索,并形成體系化的處理工作流和新型架構理論,才能全面應對未來大數據處理過程中的風險。
參考文獻
[1]肖風.投資革命[M].北京:中信出版社,2013.
[2]喬治·索羅斯.金融煉金術[M].??冢汉D铣霭嫔?,1999.
[3]納西姆·尼古拉斯 塔勒布.黑天鵝[M].北京:中信出版社,2009.
[4]徐子沛.大數據[M].桂林:廣西師范大學出版社,2015.
[5]比爾·施瑪澤.大數據:從概念到運營[M].北京:中信出版社,2016.
轉載注明來源:http://www.hailuomaifang.com/8/view-14925281.htm