融合類目偏好和數據場聚類的協同過濾推薦算法研究

> 中國論文網 >
歷史論文 >
融合類目偏好和數據場聚類的協同過濾推薦算法研究

融合類目偏好和數據場聚類的協同過濾推薦算法研究

來源:用戶上傳作者:馬鑫　王芳

　　摘要：［目的/意x］基于近鄰用戶的協同過濾推薦作為推薦系統應用最廣泛的算法之一，受數據稀疏和計算可擴展問題影響，推薦效果不盡如人意。［方法/過程］針對上述問題，提出了一種改進的推薦算法（Category Preferred Data Field Clustering Based Collaborative Filtering Recommendation，CPDFC-CFR）。首先，該算法舍棄用戶評分，利用評論情感構建用戶―項目矩陣，以增強用戶偏好表示能力；其次，該算法引入類目偏好和語義偏好的概念，利用類目偏好比對高維用戶―項目矩陣進行降維，并在用戶相似度計算中納入評論情感偏好、項目類目偏好和語義偏好，以降低數據稀疏性；最后，該算法將數據場作為用戶聚類的前置算法，把數據場輸出（極大值點）作為K-means算法輸入，以提升算法實時性和穩定性。［結果/結論］實驗結果表明：①項目類目級別越低，CPDFC-CFR算法準確性（F-measure）和即時性（相似度計算次數和推薦耗時）越優；②與其他推薦算法相比，CPDFC-CFR算法能夠有效提升推薦準確性和計算效率，對協同過濾推薦系統建設具有重要參考價值。
　　關鍵詞：推薦系統；協同過濾；數據稀疏；計算可擴展；類目偏好；數據場聚類
　　DOI：10.3969/j.issn.1008-0821.2023.01.002
　　〔中圖分類號〕G203〔文獻標識碼〕A〔文章編號〕1008-0821（2023）01-0006-13
　　Category Preferred Data Field Clustering Based Collaborative
　　Filtering Recommendation Algorithm ResearchMa Xin1，2Wang Fang1，2*
　?。?.Business School，Nankai University，Tianjin 300110，China;
　　2.Center for Network Society Governance，Nankai University，Tianjin 300110，China）
　　Abstract：［Purpose/Significance］Collaborative filtering recommendation based on nearest users，one of the most widely used algorithms in recommender systems，is affected by the issues of data sparsity and computational scalability，and the recommendation effect is unsatisfactory.［Method/Process］To address these issues，a category preferred data field clustering based collaborative filtering recommendation algorithm（CPDFC-CFR）was proposed.First，the algorithm discarded user ratings and used comment sentiment to construct a user-item matrix to enhance the ability to express user preferences.Second，the algorithm introduced the concepts of category preference and semantic preference，reduced the dimensionality of the user-item matrix using category preferred ratio，and incorporated comment sentiment preference，category preference，and semantic preference in the user similarity calculation to reduce data sparsity.Finally，the algorithm used the data field as the pre-algorithm for user clustering and used its output（maximum point）as an input to the K-means algorithm to improve the real-time and stability performance of the algorithm.［Result/Conclusion］The findings indicated that：①the lower the item category level，the higher the accuracy（F-measure）and computational efficiency（number of similarity calculations and time-consuming of recommendation）of the CPDFC-CFR algorithm;②compared with other recommendation algorithms，CPDFC-CFR algorithm can effectively improve the recommendation accuracy and computational efficiency，which is an important reference value for the construction of collaborative filtering recommendation system.

nlc202301101728

　　Key words：recommendation system;collaborative filtering;data sparsity;computational scalability;category preferred;data field clustering
　　伴隨信息通信技術的快速發展，數據呈指數式擴增，信息過載問題日益加?。?］。為了幫助信息消費者從海量信息中獲取有價值信息以及信息提供者提供高質量信息，推薦系統應運而生［2］。作為搜索引擎的重要補充，推薦系統能夠通過分析用戶歷史數據，構建用戶興趣模型，對滿足用戶模糊的、不明確的信息需求具有重要意義，已被廣泛應用于電子商務［3］、新聞傳媒［4］、搜索引擎和文獻信息獲?。?］等諸多領域。
　　目前，推薦系統的常用推薦算法包括基于內容的推薦［6-7］、基于知識的推薦［8］、協同過濾推薦和混合推薦［9-10］。其中，基于內容的推薦利用項目固有的內容屬性向用戶產生推薦?；谥R的推薦利用用戶的顯示需求和項目領域知識產生推薦?；旌贤扑]通過兩種及以上推薦算法的組合為用戶產生推薦。相比之下，協同過濾推薦利用用戶和項目的交互評分為用戶產生推薦，無需依賴項目的內容屬性和領域知識，具有推薦項目類型多樣、數據獲取和技術復現難度小、個人信息安全性高等優勢，成為眾多推薦算法中最經典和最通用的一種推薦算法。協同過濾推薦包括基于模型的推薦和基于近鄰的推薦［11-13］?；谀Ｐ偷耐扑]通過算法模型（關聯規則、回歸、圖等）預測為用戶產生推薦。基于近鄰的推薦通過用戶或項目之間的近鄰關系為用戶產生推薦，分基于近鄰用戶的推薦和基于近鄰項目的推薦兩種。其中，基于近鄰用戶的協同過濾推薦（User-based Collaborative Filtering Recommendation，U-CFR）是最早為推薦系統開發的推薦算法之一［14］。
　　1）問題描述
　　準確、高效的推薦算法是推薦系統的核心，決定了推薦效果的優劣。對于U-CFR算法而言，數據稀疏和計算可擴展問題是最具挑戰性的兩個問題。為了說明這兩個問題，對本研究采集的UserCats（10G）數據集進行了一些初步的實驗與分析。
　?、僭u分數據稀疏。隨機從UserCats數據集中抽取10名用戶的歷史數據，以研究數據稀疏問題。圖1（a）和圖1（b）分別繪制了10名用戶的用戶―項目評分矩陣（User-Item Rating，UIR）評分分布和交互次數，用戶對項目進行消費且評分時記為一次交互。結果表明，多數用戶僅對1 612個項目中的小部分項目感興趣［13］，最高交互次數為86次（約為項目總量的5.33%），最低交互次數為21次（約為項目總量的1.30%），UIR矩陣稀疏度為97.25%，評分數據極為稀疏。
　?、谟嬎憧蓴U展性差。從相似度計算次數和推薦耗時兩個方面研究算法的可擴展性。圖1（c）顯示隨著用戶數的增加，相似度計算次數呈指數式增長。類似的，從圖1（d）中可以發現，U-CFR算法的耗時隨用戶數的增加也呈指數式上升，且變化率更大。結果表明，隨著用戶數的增加，相似度計算次數和推薦耗時呈指數式上升，U-CFR算法的算可擴展性將顯著下降［2］。
　　盡管近年來已在U-CFR算法的基礎上提出了許多改進算法，例如：用于緩解數據稀疏的基于鏈接開源數據的推薦［15］和基于圖隨機游走的推薦［16］等，用于提升計算可擴展性的基于交替最小二乘的推薦［17］和基于劃分聚類的推薦［2］等，但算法仍然受到數據稀疏和計算可擴展性問題的限制。一方面，現有緩解數據稀疏性的工作本質上是有限的，受附加數據獲取成本、用戶隱私保護和歸納偏差等問題制約，且忽視了離散有限評分（例如：5星離散評分）對用戶真實偏好的表示能力；另一方面，相比數據稀疏，針對計算可擴展性問題的研究較為欠缺，且優化模型易受超參數和可解釋性問題影響，性能波動較大。因此，對U-CFR算法的數據稀疏問題和計算可擴展問題的研究仍然是一個有價值且具有挑戰性的任務。
　　2）研究貢獻
　　受類目偏好、數據場聚類和評論情感挖掘啟發，針對U-CFR算法存在的數據稀疏和計算可擴展性問題，本研究提出了一種融合類目偏好和數據場聚類的協同過濾推薦算法（Category Preferred Data Field Clustering based Collaborative Filtering Recommendation，CPDFC-CFR）。該算法首先基于評論情感構建UIS矩陣，并利用類目偏好比將高維情感矩陣映射為低維用戶―類目偏好矩陣（User-Category Preference，UCP）。然后，利用數據場聚類對UCP矩陣中的用戶進行分組，按同簇用戶間的綜合相似度大小確定目標用戶最近鄰域。最后，利用最近鄰域用戶的綜合相似度和非共有情感值預測未知項目情感，按預測值大小為目標用戶生成Top-n項目推薦列表。為了進一步驗證算法性能，在兩個真實的電商數據集上進行了對照實驗，結果表明，本研究所提CPDFC-CFR算法比U-CFR算法的系列改進算法在準確性和計算效率上有了較為顯著的提升。
　　本文所提CPDFC-CFR算法的主要貢獻如下：①增強了用戶偏好的表示能力：該算法利用一種基于屬性的無監督情感挖掘方法計算所得的評論情感代替用戶評分，緩解了有限離散評分偏好表示能力有限的問題，且情感挖掘方法本身不受人工或機器標注情感標簽的誤差影響；②降低了數據稀疏性：該算法引入了類目偏好和用戶語義的概念，并將其應用于用戶聚類和相似度計算，緩解了稀疏數據對聚類和相似度計算效果的影響；③提高了計算效率和算法魯棒性：該算法不僅利用劃分聚類降低了用戶相似度的計算次數，提高了推薦系統的實時性，而且將數據場作為劃分聚類的前置算法，有效解決了隨機初始聚類中心等對聚類效果的影響（例如：局部最優、反復迭代等），使算法結果更加穩定。

nlc202301101728

　　1相關研究
　　1.1基于近鄰用戶的協同過濾推薦
　　作為最早為推薦系統開發的算法之一，基于近鄰用戶的協同過濾推薦（User-based Collaborative Filtering Recommendation，U-CFR）的核心思想是當一個目標用戶需要個性化推薦時，算法能夠找到與其興趣相近的用戶，并能夠將這些用戶喜好的而目標用戶未交互過的項目推薦給他。算法原理如圖2所示。
　　首先利用用戶歷史評分構建用戶―項目評分矩陣（UIR），并計算用戶之間的評分相似度，按相似度大小確定與各用戶具有相似共同偏好的最近鄰用戶集，然后結合近鄰用戶相似度和非共有歷史評分對UIR矩陣缺失評分進行預測，最后按預測評分值高低為用戶生成個性化項目推薦列表。
　　1.2數據稀疏性
　　關于U-CFR算法數據稀疏問題的研究，主要集中在附加外部數據和隱式圖結構兩個方面。對于附加外部數據，學者們主要關注如何將在線社區數據或開源數據作為稀疏評分數據的補充，以降低稀疏性對推薦效果的影響。代表性研究有：丁永剛等［18］將社交網絡中的社會關系與評分結合，挖掘社交網絡好友的歷史偏好以緩解評分稀疏；Senthilselvan N等［15］在SVD++模型中加入鏈接開源數據（Linked Open Data，LOD）構建的用戶隱式表示，提出了一種基于LOD的推薦算法。類似的，李浩等［19］將U-CFR算法、基于近鄰項目的協同過濾推薦算法和利用項目外部附加數據構建的循環知識圖譜相融合，通過實體間的依賴關系來緩解用戶評分的稀疏性，以產生高質量推薦。
　　對于隱式圖結構，學者們主要關注如何借助圖傳遞或排序技術利用路徑定義用戶相似度，取代傳統相似度計算，優化稀疏數據推薦表現。代表性研究有：張以文等［20］借助聚類構建用戶信任網絡，通過網絡隨機游走量化用戶相似度，預測缺失評分并產生推薦；Zengin Alp Z等［16］在多層結構中使用不同類型節點，通過圖隨機游走提出了一種上下文感知推薦算法。類似的，針對多圖融合可能引入的歸納偏差，Wang M等［21］提出了一個多任務多視圖的圖表示學習框架（M2GRL）來學習Web規模推薦系統中多視圖圖的節點表示，以應對評分數據的稀疏問題。
　　盡管上述方法的有效性已被證明，但其在解決數據稀疏問題中發揮的作用本質上是有限的。原因有三：其一，附加外部數據多為開源人口統計信息等個人隱私數據，存在數據濫用和泄露風險，用戶的發布意愿較低，數據完整性堪憂［15］。特別是，缺少有關中文場景的鏈接開源數據庫。其二，隱式圖結構在為每個用戶進行推薦時，均需迭代整個用戶―項目二分圖至各頂點PR值收斂，時間復雜度極高。其三，受評分規則制約，用戶評分與用戶喜好之間存在一定偏差，但鮮有研究關注該問題，相似度計算結果易失真。本研究利用評論情感替代用戶評分，通過在相似度計算中引入類目偏好和由非隱私數據表示的用戶語義偏好的方式應對U-CFR算法的數據稀疏問題。
　　1.3計算可擴展性
　　關于U-CFR算法計算可擴展性問題的研究，主要集中在評分矩陣降維和用戶聚類兩個方面。對于降低評分矩陣維度，學者們主要關注如何運用矩陣分解算法將高維稀疏UIR矩陣分解為低維用戶和項目的稠密矩陣，利用稠密矩陣乘積近似評分矩陣并為用戶推薦項目。代表性研究有：Hammou B A等［22］利用矩陣分解分解UIR矩陣，通過結合評論數據計算用戶相似度，預測缺失評分并完成推薦；與隨機初始化用戶和項目特征不同，Zhao J等［23］提出來一種基于屬性映射和自編碼神經網絡的矩陣分解初始化方法，進一步提升了矩陣分解效率。Hu Y等［17］提出了一種改進的矩陣分解方法（Alternating Least Squares，ALS），其采用一個交替的訓練程序來獲得一組用戶和項目的嵌入，通過嵌入點積的形式近似原始UIR矩陣，以此產生推薦。
　　對于用戶聚類，研究人員主要關注如何利用單一或組合聚類算法對用戶進行分組，通過創建較少且包含目標用戶的聚類簇，縮小最近鄰檢索范圍，提升推薦算法計算效率。代表性研究有：陶維成等［24］利用灰色關聯度對用戶進行灰色關聯聚類，結合近鄰用戶灰色相似度和非共有評分預測缺失評分并產生推薦；張文等［25］利用譜聚類分別對用戶和項目聚類，并根據聚類結果對UIR矩陣中用戶和項目位置進行重新調整，通過SVD（Singular Value Decomposition）分解局部稠密分塊矩陣，利用施密特變換預測缺失評分。Li J等［2］將Canopy算法作為K-means算法的前置算法，并將輸出作為K-means算法的輸入（聚類數），因此提升優化聚類效果并降低算法計算耗時。
　　相比于矩陣分解方法，基于聚類的方法因具有易操作、數據利用率高和結果可解釋性較強等優勢，成為下提升U-CFR算法計算效率的研究熱點。但是，受聚類矩陣維度和超參數（例如：隨機選擇的初始聚類中心）問題影響，實際應用中的用戶聚類效果并不理想，容易出現計算效率低下和局部最優等情況。本研究從類目偏好角度對用于聚類的UIS矩陣進行降維，并將數據場作為K-means的前置算法，以進一步對推薦算法的計算可擴展性進行優化。
　　2融合類目偏好和數據場聚類的協同過濾推薦算法數據稀疏問題和計算可擴展問題是基于近鄰用戶的協同過濾推薦算法（User-based Collaborative Filtering Recommendation，U-CFR）優化研究的兩個核心問題。為此，學者們借助鏈接開源數據［15］、圖［19］、矩陣分解［17］和聚類［2］等技術方法對U-CFR算法進行了大量的改進研究。但是受用戶評分失真、附加數據完整性和安全性差、超參數等問題影響，現有方法對算法準確性和計算效率的提升效果十分有限。
　　綜上所述，本文在U-CFR算法基礎之上，提出了一種融合類目偏好和數據場聚類的協同過濾推薦算法（Category Preferred Data Field Clustering Based Collaborative Filtering Recommendation，CPDFC-CFR）。該算法首先采用評論情感構建用戶―項目矩陣，修正評分引入的用戶偏好表示偏差。然后，引入類目偏好和用戶語義偏好的概念，并將其與評論情感相似度結合，緩解數據稀疏問題對推薦準確性的影響。最后，利用類目偏好比對聚類的輸入矩陣進行降維，并將數據場作為聚類前置算法，緩解矩陣維度和超參數對用戶聚類過程的影響，減少相似度計算次數，提升算法推薦效率。

nlc202301101728

　　2.1推薦算法總體框架
　　CPDFC-CFR算法的整體計算框架如圖3所示，先后分評論情感挖掘（計算單元1）、類目偏好比計算（計算單元2）、數據場聚類（計算單元3）、綜合相似度計算以及評分預測（計算單元4）和推薦（計算單元5）5個計算單元。其中，計算單元1負責利用基于屬性的無監督情感挖掘方法將評論整體情感量化為一個固定區間的連續值，并構建用戶―項目情感矩陣（UIS）。計算單元2負責利用類目偏好比將UIS矩陣轉換為維度更低且數據密度更高的用戶―類目偏好矩陣（UCP）。計算單元3負責利用數據場聚類算法對用戶進行分組，縮小最近鄰域檢索范圍，減少相似度計算次數。計算單元4負責計算由評論情感相似度、類目偏好相似度和用戶語義相似度構成的綜合相似度，并按相似度大小確定最近鄰域。計算單元5負責利用近鄰用戶綜合相似度和非共有評論情感預測目標用戶對未知項目的情感，并生成Top-n項目推薦列表。
　　2.2評論情感挖掘
　　2.3類目偏好比計算
　　2.3.1原理
　　推薦系統的數據往往過于龐大和稀疏，影響聚類和相似度計算效果，因此有必要降低UIS矩陣維度［2］。鑒于每個項目均對應1個或多個類目，本研究利用Pearson相關系數計算UserCats數據集中各用戶相似度，并從中隨機選擇6個近鄰用戶和6個非近鄰用戶的歷史數據，分析他們與各級類目交互的頻率異同，結果如圖4和圖5所示。圖46個隨機近鄰用戶與各級類目的交互頻率比較
　　由圖4不難看出，在不同的類目級別上，近鄰用戶均表現出極為相似的類目偏好，而圖5顯示非近鄰用戶的類目偏好則有較大差異。因此，從類目偏好的角度對UIS矩陣進行降S是合理且可行的。
　　2.3.2計算
　　2.4數據場聚類
　　2.5綜合相似度計算
　　2.6評分預測和產生推薦
　　3實驗與分析
　　3.1實驗數據
　　本研究在遵循網站Robots協議前提下，將在某知名電商平臺上利用定向爬蟲抓取的相關數據作為實驗的原始數據集UserCats。該數據集由Categories、Comments和Products 3個json文件組成，大小為10G，存儲有585萬用戶與15萬商品的交互數據，例如：用戶昵稱、產品標題、類目ID、店鋪信息、評論、評分等。選擇該數據集的原因有兩個：第一，盡管用于U-CFR算法驗證的開放數據集很多，如MovieLens、Netflix等，但項目類目、評論文本和用戶昵稱等數據不夠完整；第二，電商領域是推薦系統應用最早的領域，也是一直以來推薦重點關注的領域，平臺商品類目齊全且層次清晰，數據便于獲取。
　　為確保實驗可行性及有效性，本研究隨機從UserCats中無放回抽取若干數據生成UserCats1和UserCats2兩個實驗數據集，并從中剔除未進行評論的用戶、無任何評論的商品和有內容安全風險的商品［3］。其中，UserCats1數據集大小為109M，為740個用戶和1 006個商品的交互數據，有3個一級類目、5個二級類目和9個三級類目，評論情感稀疏度為96.34%。UserCats2數據集大小為108M，為854個用戶與1 373個商品的交互數據，有6個一級類目、9個二級類目和13個三級類目。綜合考慮數據實時性和算法規模，采用PC離線方法進行實驗［2］（Windows 11，PyCharm 2021，Python 3.6，Inter（R）Core TM i7-8550U @ 200GHz，16G RAM）。數據集分訓練集（80%）和測試集（20%）。實驗數據集描述如表1所示。
　　3.2評價指標與對照算法
　　3.2.1評價指標
　　3.2.2對照算法
　　為全面驗證CPDFC-CFR算法應對數據稀疏和計算可擴展性問題的有效性，本研究所選對照算法基本涵蓋了現有研究提出的不同類型的U-CFR算法。下面，對本研究所選對照算法進行簡要說明：
　　POP（Popular Products）：一種簡單的非個性化基線算法，該算法按項目流行度的大小向各用戶推薦相同的Top-n項目推薦列表。
　　ALS（Alternating Least Squares）［17］：一種矩陣分解算法，該算法采用交替訓練的方式獲得一組用戶和項目的嵌入，通過嵌入點積的形式近似原始的用戶―項目矩陣。
　　U-CFR（User-based Collaborative Filtering Recommendation）［3］：一種簡單的個性化基線算法，該算法基于用戶相似度為目標用戶推薦其近鄰用戶喜歡的項目。
　　Km-CFR（K-means Based Collaborative Filtering Recommendation）［3］：一種基于聚類的推薦算法，該算法在U-CFR基礎上利用K-means算法減少用戶相似度計算次數，提升算法推薦效率。
　　CKm-CFR（Canopy-K-means Based Collaborative Filtering Recommendation）［2］：一種基于聚類的推薦算法，該算法將Canopy作為K-means的前置算法，緩解了聚類數k對聚類效果的影響，在提升計算效率的同時也確保了結果的穩定性。
　　上述算法均適用于用戶―項目矩陣，其中行表示用戶，列表示項目，行列交點表示用戶評分或用戶評論情感。此外，還比較了CPDFC-CFR算法的3種中間算法，以比較算法不同計算單元的優化效果：
　　U-CFR（UIS）：與U-CFR算法相比，構建用戶―項目矩陣利用的是用戶評論情感。
　　U-CFR（UIS+DF）：與U-CFR（UIS）算法相比，在相似度計算前利用數據場聚類對用戶進行了分組。

nlc202301101728

　　U-CFR（UIS+SIM）：與U-CFR（UIS）算法相比，Pearson相關系數替換為綜合相似度。
　　POP和ALS算法無用戶相似度計算過程，研究僅比較了它們在推薦耗時上的計算效率表現。所有算法由Anaconda 3中Implicit推薦算法庫和Sklearn、Scipy等依賴庫復現。
　　3.3超參數選擇
　　超參數是推薦算法開始學習過程之前人工設置值的參數。取最近鄰個數N=10（總用戶數的1%～2%）［34］和項目推薦列表長度n=15（與Last.fm等平臺的項目推薦長度相近）［38］，通過對不同參數進行網格搜索來選擇各算法的超參數，并以F-measure值大小作為最佳參數確定標準。實驗結果取三折交叉驗證結果的平均。各算法超參范圍如下（POP除外）：
　　對于ALS，在{10，100，1 000}之間選擇嵌入大小，在{500，1 000}之間選擇算法迭代次數，在{0.001，0.0001}之間選擇正則化因子。對于U-CFR、U-CFR（UIS）、U-CFR（UIS+DF）、Km-CFR和CKm-CFR，在Pearson相關系數之間選擇相似度計算函數，在{2，3，4，5，6，7，8，9，10}之間選擇最佳聚類數（僅用于Km-CFR算法），在1 000之間選擇迭代次數（僅用于Km-CFR和CKm-CFR）。
　　對于U-CFR（UIS+SIM）和CPDC-CFR，有α∈［0，1］、β∈［0，1］和γ∈［0，1］3個超參數，滿足。鑒于3個超參數的值對為三維空間中的等邊三角形面，如圖6所示，本研究在三條角平分線的7個交點和切割區域的6個對稱點之間選擇和的最佳取值。
　　3.4實驗結果分析
　　本節報告并討論實驗結果。首先探討不同類目級別對CPDFC-CFR算法推薦準確性和計算效率的影響（3.4.1節），然后介紹CPDFC-CFR算法整體性能（3.4.2節），最后比較不同推薦算法的結果差異（3.4.3節）。
　　3.4.1類目級別影響
　　UserCats1和UserCats2中CPDFC-CFR算法在不同商品類目級別上的性能表現如圖7所示。在準確性方面，商品類目級別越高，算法F-measure值越小。在計算效率方面，商品類目級別越高，算法推薦耗時越長，相似度計算次數越多。一個可能的原因是，隨著商品類目級別的提升，UCP矩陣貢獻的用戶類目偏好信息粒度越來越大，如圖7（a1）和圖7（a2）所示，弱化了用戶之間的細微偏好差異，令數據場聚類效果下降，影響了算法計算效率和準確性。鑒于各評價指標值變化的拐點尚未出現，進一步降低商品類目級別（例如：細化三級類目的商品分類，構建四級商品類目），可能是一種提升CPDFC-CFR準確性和計算效率的有效途徑。
　　3.4.2總體性能分析
　　對照算法和本文所提算法及其中間算法在兩個實驗數據集中的F-measure、推薦耗時和相似度計算次數指標的三折及平均結果如圖8所示。對比U-CFR和U-CFR（UIS）可知，利用評論情感構建的UIS矩陣能蛭近鄰協同過濾推薦算法提供比UIR矩陣更加接近用戶真實喜好的向量表示。對比U-CFR（UIS）和U-CFR（UIS+DF）可知，利用數據場優化K-means算法的用戶聚類效果是可行的，能夠有效降低推薦算法的相似度計算次數和推薦耗時并提升準確性。對比U-CFR（UIS）和U-CFR（UIS+SIM）可知，盡管引入用戶類目偏好信息（三級產品類目）和語義信息會令推薦耗時增加，但實驗結果也基本證實了它們在緩解矩陣數據稀疏上的有效性。綜合考慮上述優化思路的CPDFC-CFR算法在兩個實驗數據集中均取得了最高的F-measure、較少的推薦耗時和最低的相似度計算次數，與算法設計預期相符。
　　3.4.3不同推薦算法比較
　　UserCats1和UserCats2數據集中不同類型推薦算法的性能如圖9所示（三折交叉驗證均值）?？傮w而言，兩個數據集中本文所提CPDFC-CFR算法均取得了整體上的最優性能（最高的準確性和較高的計算效率）。在準確性方面，交替訓練ALS的F-measure值要高于Km-CFR和CKm-CFR等基于傳統聚類的協同過濾推薦算法。POP表現最差，因為其基于產品流行度向所有用戶推薦相同的商品列表。在計算效率方面，U-CFR耗時最長，POP耗時最短，ALS因無需反復計算相似度耗時較短。受超參數影響，Km-CFR的相似度計算次數和推薦耗時高于CKm-CFR和CPDFC-CFR。此外，從圖中數據可知，無論哪種類型推薦算法，UserCats1（稀疏度96.34%）中的結果都優于UserCats2（稀疏度97.94%），這表明數據稀疏性對推薦性能有較大影響。
　　4結語
　　4.1結論
　　伴隨信息過載，推薦成為信息消費者獲取個性化信息以及信息提供者提供高質量信息的重要方式。受用戶評分失真、附加數據完整性和安全性差以及超參數（例如：隨機初始聚類中心）等問題影響，現有針對基于近鄰用戶的協同過濾推薦算法數據稀疏和計算可擴展性（計算效率）問題的相關研究仍有進一步優化的空間。為此，本文提出了一種融合類目偏好和數據場聚類的協同過濾推薦算法（Category Preferred Data Field Clustering Based Collaborative Filtering Recommendation，CPDFC-CFR）。該算法首先通過評論情感構建用戶―項目矩陣，并利圖9不同類型推薦算法的準確性和計算效率表現
　　用類目偏好比降低矩陣維度；然后，通過數據場聚類對用戶進行分組，縮小最近鄰域檢索范圍，減少相似度計算次數；最后，計算同簇中由評論情感、類目偏好和用戶語義共同構成的用戶相似度，同時預測UIS矩陣缺失評分，產生Top-n個性化項目推薦列表。為進一步驗證算法性能，本研究在電商領域的兩個真實數據集上進行了對照實驗，結果表明，CPDFC-CFR算法比對照算法和U-CFR算法的系列改進算法在準確性和計算效率上有了較為明顯的提升（UserCats1數據集上F-measure=27.65%，推薦耗時=3 633.50秒，相似度計算次數=263 096次；UserCats2數據集上F-measure=26.96%，推薦耗時=6 698.18秒，相似度計算次數=364 658次），整體性能最優。

nlc202301101728

　　4.2局限與未來工作
　　本研究的不足之處在于：第一，受數據采集成本限制，研究僅在電商場景中對算法準確性和計算效率進行了驗證，在實驗數據的多樣性上可能存在一定疏漏，導致研究結果的可靠性和算法的可推廣性有待進一步提升。未來工作可能會采集不同場景下的數據集，例如：新聞傳媒、金融理財、研發等，在不同數據量級和不同稀疏度等組合條件下驗證算法性能。第二，雖然研究未發現類目級別與算法準確性和計算效率之間的均衡點，但卻可以看出一定的規律，即：隨著類目級別的降低，算法準確性和計算效率逐漸上升，如圖8所示。未來的工作可能會嘗試利用深度學習或人工方式細化類目分類，找到類目級別與算法準確性和計算效率的均衡點，進一步提升算法推薦效果。
　　參考文獻
　?。?］Chen D，Hu Y，Wang L，et al.H-PARAFAC：Hierarchical Parallel Factor Analysis of Multidimensional Big data［J］.IEEE Transactions on Parallel and Distributed Systems，2016，28（4）：1091-1104.
　　［2］Li J，Zhang K，Yang X，et al.Category Preferred Canopy―K-means Based Collaborative Filtering Algorithm［J］.Future Generation Computer Systems，2019，93：1046-1054.
　?。?］馬鑫，王芳，段剛龍.面向電商內容安全風險管控的協同過濾推薦算法研究［J］.情報理論與實踐，2022，45（10）：176-187.
　?。?］楊武，唐瑞，盧玲.基于內容的推薦與協同過濾融合的新聞推薦方法［J］.計算機應用，2016，36（2）：414-418.
　?。?］熊回香，李曉敏，杜瑾.基于學術關鍵詞與共被引的學者推薦研究［J］.情報學報，2021，40（7）：725-733.
　?。?］Tian Y，Zheng B，Wang Y，et al.College Library Personalized Recommendation System Based on Hybrid Recommendation Algorithm［J］.Procedia CIRP，2019，83：490-494.
　?。?］Burke R.Hybrid Web Recommender Systems［M］.Brusilovsky P，Kobsa A，Nejdl W.The Adaptive Web：Methods and Strategies of Web Personalization.Berlin，Heidelberg;Springer Berlin Heidelberg，2007：377-408.
　?。?］馬宏偉，張光衛，李鵬.協同過濾推薦算法綜述［J］.小型微型計算機系統，2009，30（7）：1282-1288.
　?。?］張宜浩，朱小飛，徐傳運，等.基于用戶評論的深度情感分析和多視圖協同融合的混合推薦方法［J］.計算機學報，2019，42（6）：1316-1333.
　?。?0］Liu H，Wang Y，Peng Q，et al.Hybrid Neural Recommendation with Joint Deep Representation Learning of Ratings and Reviews［J］.Neurocomputing，2020，374：77-85.
　?。?1］Aggarwal C C.推薦系統：原理與實踐［M］.北京：機械工業出版社，2018.
　?。?2］Elahi M，Ricci F，Rubens N.A Survey of Active Learning in Collaborative Filtering Recommender Systems［J］.Computer Science Review，2016，20：29-50.
　?。?3］R鑫.基于數據場聚類的電商近鄰協同過濾推薦算法研究［D］.西安：西安理工大學，2021.
　?。?4］潘濤濤，文鋒，劉勤讓.基于矩陣填充和物品可預測性的協同過濾算法［J］.自動化學報，2017，43（9）：1597-1606.
　?。?5］Senthilselvan N，Subramaniyaswamy V，Sivaramakrishnan N，et al.Resolving Data Sparsity and Cold Start Problem in Collaborative Filtering Recommender System Using Linked Open Data［J］.Expert Systems with Applications，2020，149：113248.
　?。?6］Zengin Alp Z，Gündüz ?güdücü.Identifying Topical Influencers on Twitter Based on User Behavior and Network Topology［J］.Knowledge-Based Systems，2018，141：211-221.
　?。?7］Hu Y，Koren Y，Volinsky C.Collaborative Filtering for Implicit Feedback Datasets［C］//Proceedings of the 2008 Eighth IEEE International Conference on Data Mining，2008.

nlc202301101728

　?。?8］丁永剛，張雨琴，付強，等.基于SOM神經網絡和排序因子分解機的圖書資源精準推薦［J］.情報理論與實踐，2019，42（9）：133-138，170.
　?。?9］李浩，張亞釧，康雁，等.融合循環知識圖譜和協同過濾電影推薦算法［J］.算機工程與應用，2020，56（2）：106-114.
　?。?0］張以文，汪開斌，嚴遠亭，等.基于覆蓋隨機游走算法的服務質量預測［J］.計算機學報，2018，41（12）：2756-2768.
　?。?1］Wang M，Lin Y，Lin G，et al.M2GRL：A Multi-task Multi-view Graph Representation Learning Framework for Web-scale Recommender Systems［C］//Proceedings of the Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining，New York，NY，USA，F，2020.
　?。?2］Hammou B A，Lahcen A A，Mouline S.An Effective Distributed Predictive Model with Matrix Factorization and Random Forest for Big Data Recommendation Systems［J］.Expert Systems with Applications，2019，137：253-265.
　?。?3］Zhao J，Geng X，Zhou J，et al.Attribute Mapping and Autoencoder Neural Network Based Matrix Factorization Initialization for Recommendation Systems［J］.Knowledge-Based Systems，2019，166：132-139.
　?。?4］陶維成，黨耀國.基于灰色關聯聚類的協同過濾推薦算法［J］.運籌與管理，2018，27（1）：84-88.
　?。?5］張文，崔楊波，李健，等.基于聚類矩陣近似的協同過濾推薦研究［J］.運籌與管理，2020，29（4）：171-178.
　?。?6］王紅霞，陳健，程艷芬.采用評論挖掘修正用戶評分的改進協同過濾算法［J］.浙江大學學報（工學版），2019，53（3）：522-532.
　?。?7］Yang H，Suh Y.Sentiment Analysis of Online Customer Reviews for Product Recommendation：Comparison with Traditional CF-based Recommendation［J］.Korea Management Information Society Conference，2015：801-805.
　?。?8］Ganu G，Kakodkar Y，Marian A.Improving the Quality of Predictions Using Textual Information in Online User Reviews［J］.Information Systems，2013，38（1）：1-15.
　?。?9］Zhang X，Liu H，Chen X，et al.A Novel Hybrid Deep Recommendation System to Differentiate Users Preference and Items Attractiveness［J］.Information Sciences，2020，519：306-316.
　?。?0］Liu Q B，Karahanna E.The Dark Side of Reviews：The Swaying Effects of Online Product Reviews on Attribute Preference Construction［J］.Management Information Systems Quarterly，2017，41（2）：427-448.
　?。?1］Zhang Y，Cheng D Z，Yao T，et al.A Model of Two Tales：Dual Transfer Learning Framework for Improved Long-tail Item Recommendation［M］.Proceedings of the Web Conference 2021.Ljubljana，Slovenia;Association for Computing Machinery，2021：2220-2231.
　?。?2］Mukherjee A，Venkataraman V，Liu B，et al.What Yelp Fake Review Filter Might Be Doing？［C］//Proceedings of the Seventh International AAAI Conference on Weblogs and Social Media，2013.
　?。?3］淦文燕，李德毅，王建民.一種基于數據場的層次聚類方法［J］.電子學報，2006，34（2）：258-262.
　?。?4］Rodriguez A，Laio A.Clustering By Fast Search and Find of Density Peaks［J］.Science，2014，344（6191）：1492-1496.
　　［35］Papagiannopoulou E，Tsoumakas G.Local Word Vectors Guiding Keyphrase Extraction［J］.Information Processing & Management，2018，54（6）：888-902.
　　［36］賈曉明，周h.即時文字網絡心理咨詢中的咨詢關系［J］.中國心理衛生雜志，2011，25（12）：884-889.
　?。?7］陳夢曦，田澎，李相勇，等.考慮等級的民航個性化航空路線推薦模型［J］.工業工程與管理，2019，24（3）：139-146，156.
　?。?8］Melchiorre A B，Rekabsaz N，Parada-Cabaleiro E，et al.Investigating Gender Fairness of Recommendation Algorithms in the Music Domain［J］.Information Processing & Management，2021，58（5）：102666.
　?。ㄘ熑尉庉嫞和蹙S）

nlc202301101728

轉載注明來源:http://www.hailuomaifang.com/4/view-15443887.htm

查看更多→

融合類目偏好和數據場聚類的協同過濾推薦算法研究

相關文章