基于評論挖掘在線短租市場產品排序研究
來源:用戶上傳
作者:
摘要:結合在線短租市場固有的特點,分析信息質量對于消費者信息采納和決策行為的作用機制。在研究方法上,選擇了多屬性決策模型對目標商品進行排序,確定產品總效用、產品特征-情感和權重,利用TOPSIS算法,對目標商品進行排序。結合在線短租市場特點基礎上,對大量在線評論數據進行處理,多維度考慮評論信息對產品排序的影響。
關鍵詞:在線短租;信息采納模型;評論挖掘;TOPSIS算法
中圖分類號:F27文獻標識碼:Adoi:10.19311/j.cnki.1672-3198.2019.15.032
1問題描述
本文主要考慮評論信息對電子商務網站產品排序影響。設目標產品集為X={X1,X2,…,Xm},目標產品的在線評論集合為Ei= {e1i,e2i,…,eQii},Qi表示產品i的評論數量,i= 1,2,…,m;q= 1,2,…,Qi。用C = {C1,C2,…,Cn}表示評論中涉及的產品屬性的集合;U(eqi)表示評論eqi的總效用;用ω表示產品屬性的權重向量,可以用向量表示為ω=(ω1,ω2,…,ωn)T,則ωj≥0且∑nj=1ωj=1。
本文需要解決的問題是,通過現在的在線評論信息Ei,抽取出產品的屬性,即集合C,以及每個產品屬性所代表的權重ω,并通過這些信息,對目標產品進行排序。
2模型構建
本文結合在線短租市場在線評論的特點,結合消費者購買決策五階段模型和信息采納模型,構建模型。在模型構建中,簡化了共識性因素對產品排序的影響,將研究重點放在中心路徑上,研究在線評論信息的質量對于產品排序的影響,模型思路框架見圖1。
3在線評論效用
3.1評論長度
本文將評論長度具體量化為評論中所包含的字符數量。通常來說,評論文本越長,則其中包含的內容也就越豐富,涉及的維度也就越多,其中包含的有用信息也越多,代表越強的可信度。因此,較長的評論文本可以一定程度上增加閱讀者的感知有用性,降低購買的不確定性。
num=count(word)(1)
u1eqi=ln(num+1)ln(num*+1)(2)
其中,word代表評論中所包含的文字數量,num*代表在線評論中長度最長的評論的文字數,可表示為num*=max (num),且0≤u1(eqi))≤1。
3.2評論時效性
評論時效性指評論消息發布與被閱讀兩者之間的時間差。差值越小,意味著評論越新,即評論的時效性越強。雖然不同市場的表現規律不同,但是不同維度的異質性穩定性隨著時間的推移而降低。
u2 (eqi)=exp (Tqi-TnowTnow-T*i)(3)
其中,Tqi表示消費者發表評論的時間,Tnow表示消費者進行產品選擇的時間,即產品評論被閱讀的時間,T*i表示該產品評論中,最早發表的時間,也就是說,T*i= min { Tqi},特別地,當Tqi=T*i時,u2(eqi)=0.37,可見,0.37≤u2 (eqi))≤1。
3.3圖片評論數
評論信息中,除了包含文字信息外,還會包含圖片信息,且圖片信息是對文字信息的內容補充。根據大量文獻研究表明,圖片評論數對在線評論有用性有正向影響。另外來說,圖片信息由于其包含的內容更加直觀、真實,有助于幫助消費者對產品本身有更好的了解。因此,圖片評論信息可以加強閱讀者的感知有用性。
u3eqi=exp (N-N*N*)(4)
其中,N代表評論中包含的圖片數量,N*=max (N),代表在線評論中最多的圖片數量。特別地,當N=0時,u3 (eqi)= 0.37,可見,0.37≤u3 (eqi))≤1。
4產品特征-情感配對
4.1產品特征抽取
商品特征是評論信息的重要組成部分之一,同時也是消費者關注的具體內容。對于一件有形的商品來說,它的特征可以是商品外觀、質量、服務態度等各個方面,消費者對一個產品的喜好,歸根到底是對產品的各項特征的喜好。產品特征就是指產品所包含的各類屬性,包括它的包裝、功能、質量、外形、服務等,這些都是吸引消費者做出選擇的關鍵性因素。因此,我們對產品的在線評論進行分析,就是探究在線評論中包含哪些吸引消費者的特征。
本文產品特征抽取采用的是關聯規則的方法,通過尋找頻繁項集實現產品特征的抽取。本文采用的是Apriori算法,通過算法抽取評論中具有頻繁項集作為產品特征,在算法的應用中,頻繁項集僅考慮3項及其以下項集,同時,通過最小支持度對頻繁項集進行篩選。
4.2產品特征-情感傾向詞對抽取
情感傾向是用戶進行評論時,就產品的某個特征,發表的具有主觀性的評價語言,這些評論語言都具有感覺色彩,因此在評論分析中,需要找到產品特征所對應的情感詞。一般情況下來說,情感詞和產品特征都是成對出現的,為了確保產品特征和情感詞兩者之間存在對應關系,我們通過權重對兩者進行衡量,用pair<feature,opinion,weight>,簡寫為pair<f,o,d,n,weight>,在實際應用中,認定只有當weight取值高于0.25時,才可以認為這對特征詞和情感詞之間存在配對關系。
4.3情感極性判定
4.3.1構建情感詞典
情感詞典是分析情感詞極性的基礎,是一種基于語義的方法,它可以用于計算詞語、句子或者文檔的情感極性。本文的情感詞典構建來源于HowNet、NTUSD以及評論語料。其中,HowNet和NTUSD提供不針對具體領域的,具有通用性的情感詞。由于本文是對在線評論進行情感分析,其中會涉及到很多網絡詞匯,因此在HowNet和NTUSD的基礎上,結合網絡詞匯加入到詞典中。將情感詞分為褒義、中性和貶義這三個集合,分別用符號O +,O'和O-表示,部分含義如表1所示。 4.3.2判斷情感極性
文本進行詞性標注后,本文以其中的形容詞作為情感詞進行分析,通過LTP語言技術平臺,進行依存句法分析,存儲屬性-情感詞對,再根據情感詞典的方法對情感極性進行判斷。設Oqij表示評論eqi中關于屬性Cj的情感詞,P(Oqij) 表示情感詞Oqij的極性,公式為
P(Oqij)=10-1若Oqij∈V+若Oqij∈V'若Oqij∈V-(5)
4.3.3處理程度副詞
消費者在發表評論時,不僅會用情感詞表示產品的特征,同時還會使用程度副詞加強情感。參照HowNet程度副詞表,按照表達的情感程度,可以將它劃分為兩類,用deg(Oqij)來表示,則deg(Oqij) = 1,2,含義如表2所示,公式表示為
deg(Oqij)=12Oqij∈Φ1Oqij∈Φ2(6)
其中,Φ1代表情感強度為1的副詞集合,Φ2代表情感強度為2的副詞集合。
4.3.4處理否定詞
情感詞可以充分表達消費者的情感傾向,但是,其中的否定詞對情感傾向的極性有關鍵影響。當情感詞之前出現否定詞詞,所表示的情感極性有可能就完全相反。在否定詞處理中,主要考慮以下兩種情況,一是否定詞是對另一否定詞的否定,即出現兩個否定詞時,并不會影響情感極性;但是當只有一個否定詞時,則是對情感極性的完全否定,情感極性完全相反。因此認為可以以否定詞出現的個數來判斷否定詞對情感極性的影響。令N表示情感詞Oqij前否定詞的個數。因此,關于就評論eqi,其表達的關于產品屬性Cj的情感強度可用下式來衡量:
Scoreeqi)= P(Oqij)* deg(Oqij)*(-1)qijN(7)
在數據處理中,若評論信息中并未出現關于屬性Cj的情感詞,則我們認為該評論信息的情感值為ψ,可用公式表示為Scoreeqi=ψ。但是,若評論信息中未出現任何屬性值,那么認為該評論對產品的所有屬性表達的情感相同??梢?,當Scoreeqi≠ψ時,Scoreeqi= -2,-1,0,1,2。
5基于TPOSIS算法的產品排序模型
Technique for Order Preference by Similarity to an Ideal Solution是1981年,由C.L.Hwang聯合K.Yoon提出的,簡稱為TOPSIS算法。TOPSIS算法主要用于對有限數量的目標產品進行優劣排序。TOPSIS算法中,首先計算在理想狀態下的最優目標,其次通過各目標產品與理想最優解之間的距離來進行判斷,同時,該方法要求各效用函數具有單調遞增(或遞減)性。
5.1在線評論效用計算
評論eqi的總效用為
U(eqi)=αu1(eqi)+βu2(eqi)+γu3(eqi)(8)
i= 1,2,…,m;q = 1,2,…,Q;;其中,α,β,γ≥0 且α+β+γ= 1。
5.2產品屬性權重
在產品特征處理過程中,已經將產品的特征進行頻繁項集處理,得到產品的屬性集合。用yqij表示評論eqi中包含的屬性集合,若評論eqi中未提取出屬性詞,則yqij=φ。若評論中某屬性出現的頻率越高,則代表該屬性受到更多的人重視,即該屬性在消費者心中的權值越高,以統計的方法,將各屬性集合所在評論的效用進行累加,并以此代表屬性的權重,則屬Cj的權重可表示為
wj=∑mi=1∑Qiq=1Ueqiτjeqi∑nj=1∑mi=1∑Qiq=1Ueqiτjeqi(9)
其中:τjeqi=1,0,yqij≠φyqij=φ;∑mi=1∑Qiq=1U(eqi)τj(eqi)表示包含屬性Cj集合的評論的總效用值。
5.3構建決策矩陣
用H = { H1 =-2,H2 =-1,H3 = 0,H4 = 1,H5= 2}表示評論信息中,產品特征所代表的情感等級集合。為了表達產品在不同情感等級上的差異性,本文采用隨機形式表達消費者的情感傾向。
首先,記ξij表示產品Xi關于屬性Cj的隨機評價值,那么ξij就可以用公式10表示其概率分布函數。
Pξij=Hk=pkij,k=1,2,…,5(10)
其中,
pkij=∑Qiq=1ψk(Scoreeqij)∑Nk=1∑Qiq=1ψk(Scoreeqij)(11)
ψkScoreeqij=1,0,Scoreeqij=HkScoreeqij≠Hk,pkij∈[0,1]且∑Nk=1pkij=1,其中,N代表需要決策的產品數。因此,我們可以求出針對目標產品的離散概率分布函數,即決策矩陣,用M=[P(ξij)]m*n表示,具體表達形式間表3。
5.4消費者購買決策模型
首先,確定關于候選商品Xi對商品特征Cj的特征值的累積分布函數,則ξij的累積分布函數如下:
Fijx=∑ξijSymbolcB@
xP(ξij)(12)
根據公式(12),可以得到累計分布函數形式的決策矩陣M︿=[P(ξij)]m*n,進而可以求出目標產品的正負理想分布函數,用函數F+j(x)和F-j(x)表示。
由于本文是對產品的優劣進行排序,因此采用的是效益型指標的確定方式。具體求解方式如下:
F+j=maxFij(x)|i=1,2,…,m,j=1,2,…,n(13)
F-j=minFij(x)|i=1,2,…,m,j=1,2,…,n(14)
由公式5-10和公式5-11,可確定正理想點F+和負理想點F-。
F+=F+1x,F+2x,…,F+nx(15) F-=F-1x,F-2x,…,F-nx(16)
結合產品特征所對應的權重ω=(ω1,ω2,…,ωn),可求得目標產品Pi的正負理想點距離,用函數D+i和D-i表示。
D+i=∑nj=1ωj*∫ΩjFijx-F+jxdx,i=1,2,…,m(17)
D-i=∑nj=1ωj*∫ΩjFijx-F-jxdx,i=1,2,…,m(18)
其中,Ωj=[H1,Hk],k=1,2,3,4,5。
根據已經求出的正負理想點距離,可求得關于目標產品Pi的貼近度,用函數CCi表示。
CCi=D-iD-i+D+i,i=1,2,…,m(19)
顯然我們可以看出,貼進度CCi的取值越大,代表目標產品Pi與正理想點的距離越近,同時離負理想點的距離越遠,也就說明目標產品Pi越好。因此,最后可以根據CCi取值的大小判斷目標產品的優劣。
6數據驗證
在數據驗證階段,選擇途家網為代表進行研究。本文隨機選擇5家店鋪,獲取這5家店鋪的在線評論數據,依據上文提到的技術手段和算法對數據進行分析,然后應用多屬性決策模型對這5家店鋪進行排序。
本文在途家網中,選擇城市為大理,根據首頁推薦隨機挑選前5家店鋪,但店鋪選擇的過程中,盡量考慮店鋪的價格在同一個區間范圍內,根據推薦頁的店鋪情況來看,除部分店鋪的價格在100元以下或者一些別墅套件在500元以上,其他大多數的店鋪價格均保持在100-300之間,其中以100-200之間尤其多,因此將店鋪的價格確定在100-200,最終確定的店鋪分別為:大理古城小貓民宿(X1)、閑暇小筑(X2)、大理古城邊的小院子合院(X3),洱海邊雅致雙床房(X4),泊新民宿-情侶蜜月陽光大床房(X5),價格分別為:116、134、179、170、188。在抓取在線評論的同時,也抓取了其他信息如下:(1)評論發布者的用戶名;(2)評論者點評時間;(3)圖片評論數。通過Gooseaker獲得這5家店鋪的在線評論信息,每家店鋪收集的在線評論數據如表4所示。
則可根據(公式12~19)計算得到關于產品X1,X2,X3,X4,X5的貼進度分別為CC1=0.301,CC2=0.411,CC3=0.565,CC4=0.169,CC5=0.538。因此,候選商品的排序為X3>X5>X2>X1>X4,即X3的綜合評價較好,潛在消費者可以選擇X3進行。
7結論
本文結合在線短租市場的特點,通過對在線評論的處理,研究評論信息對產品排序的影響,通過對現有的評論信息進行處理,并依據TOPSIS算法得到了最公正的產品排序。該方法的主要特點在于:評論信息數據量大,同時也易于獲取,本文考慮了在線評論的效用、產品特征和情感傾向對消費者的影響,多維度分析,彌補了現有方法對在線評論信息處理過于粗糙的缺點。
參考文獻
[1]姜廣田.解決隨機多屬性決策問題的若干理論與方法研究[D].沈陽:東北大學,2010.
[2]張艷輝,李宗偉.在線評論有用性的影響因素研究:基于產品類型的調節效應[J].管理評論,2016,28(10):123-132.
[3]李金海,何有世,馬云蕾,等.基于在線評論信息挖掘的動態用戶偏好模型構建[J].情報雜志,2016,35(9):192-198.
[4]張艷豐,李賀,翟倩,等.基于模糊TOPSIS分析的在線評論有用性排序過濾模型研究——以亞馬遜手機評論為例[J].圖書情報工作,2016,(13):109-117.
[5]李永海.一種使用在線評論信息的商品購買決策分析方法[J].運籌與管理,2018.
轉載注明來源:http://www.hailuomaifang.com/2/view-14895565.htm