樹人論文網一個專業的學術咨詢網站!!!
樹人論文網_職稱論文發表_期刊雜志論文投稿_論文發表期刊_核心期刊論文發表
學術咨詢服務

基于Item2Vec負采樣優化的專題地圖產品個性化推薦方法研究

來源: 樹人論文網 發表時間:2020-11-25
摘要:建立適用于專題地圖產品檢索的用戶偏好推薦模型是提高專題地圖質量的有效方式之一,在專題地圖產品推薦場景中,存在嚴重的內容冷啟動和評論數據稀疏問題,現有的推薦算
職稱論文發表

  摘要:建立適用于專題地圖產品檢索的用戶偏好推薦模型是提高專題地圖質量的有效方式之一,在專題地圖產品推薦場景中,存在嚴重的內容冷啟動和評論數據稀疏問題,現有的推薦算法無法為特定類用戶推薦不同特征的專題地圖產品,導致用戶從專題地圖中獲取偏好信息受到限制。因此,本文構建基于負采樣的連續詞袋模型和基于Word2Vec的Item2Vec相結合的用戶偏好推薦方法,用于專題地圖產品推薦。①計算用戶行為日志文件中交互行為數據的隱性評分,以代替專題地圖推薦信息流場景中稀疏的用戶評論數據;②基于負采樣的連續詞袋模型提取目標專題地圖的前后地圖序列感知特征信息,通過控制正負樣本比例為1:2,提升目標專題地圖潛在評分的預測精度;③通過Item2Vec將帶有用戶行為特征信息的專題地圖映射到向量空間,計算用戶對專題地圖的相似度矩陣,根據用戶偏好程度完成推薦。在構建的專題地圖評分實驗數據集ThematicCMaps和4個公開驗證數據集MovieLens上的測試結果表明:與LFM、PersonalRank、ContentBased和SVD4種傳統推薦算法相比,本文所提方法可有效提高潛在評分的預測精度,推薦性能最高達到27.85%;與以霍夫曼采樣方式的Item2Vec基礎方法和YouTubeNet2種神經網絡推薦算法相比,評分預測精度有一定提高,且推薦性能不斷提升,最高達到2.97%和5.78%。以經典算法奇異值分解(SVD)為例,將MovieLens-20M數據集切分后,在數據量不斷增大的數據子集中,本文所用方法的評分預測精度和性能均優于SVD方法。

地球信息科學學報

  本文源自地球信息科學學報,2020,22(11):2128-2139.《地球信息科學學報》主要刊登地球系統科學及其相關邊緣交叉學科的新研究成果,主要包括前瞻性、創新性強的科學研究論文以及與國民經濟、技術研究開發緊密相關,應用價值較高的學術論文。本刊還辟有研究通訊、前沿探索、科技開發、綜述、學術動態等相關欄目。熱忱歡迎國內外學者踴躍賜稿。

  1、引言

  針對嚴重的“信息過載”問題,推薦算法通過用戶基礎畫像(年齡、性別等)、用戶評論數據及物品(商品、APP等)評分信息等進行數據建模,提取語義特征信息,抽象用戶個性化需求的偏好程度,為用戶推薦滿足個性化需求的物品,實現用戶偏好推薦。目前,推薦算法已應用到許多領域,如:電商場景中用戶購買物品(Amazon、Alibaba等)、信息流場景中用戶瀏覽信息(iGoogle、AMiner等)、位置服務中的用戶評分系統(FourSquare、大眾點評等)[1]。

  將推薦算法引入專題地圖產品推薦場景是為了快速有效地獲得特定類用戶的偏好信息,以提升專題地圖質量。一些學者采用地學眼動實驗方法探求用戶對地圖的認知機理,通過Web日志獲取用戶對地圖的感興趣度信息,利用問卷調查法篩選地圖相關的情境因素,以設計的推薦案例庫和推薦規則為準,為用戶推薦滿足偏好需求的地圖[2,3]。也有學者對相關應急場景構建本體知識庫,通過相似度計算工具訓練知識庫,根據用戶檢索條目,匹配知識庫中相似度較高的內容項,為用戶推薦偏好專題地圖[4]。相關場景的規則庫和知識庫需人工前期編制,耗時長且主觀性較強,面對專題地圖推薦場景中多變的情境信息,這些推薦方法無法真實體現不同類用戶的偏好程度且時效性不強。傳統推薦算法通過表征用戶、物品之間的相似偏好模型挖掘用戶對物品的潛在評分,對用戶偏好的物品進行召回或排序,如:協同過濾算法[5]、基于內容的推薦算法[6,7]和基于圖的推薦算法[8]等,以上方法采用的淺層模型需人工設計用戶和物品的偏好關系特征,面對嚴重的冷啟動和數據稀疏問題,算法推薦性能和評分預測精度下降。深度學習有效推動了推薦算法研究,神經網絡中輸入層與隱層、隱層與輸出層之間均是全連接的網絡,且激活函數的去線性化,利于從多源異構數據中自動學習用戶和物品的潛在特征,有效緩解冷啟動和數據稀疏問題,特征抽象能力優于傳統推薦算法,推薦準確率較高[9,10]。OrenBarkan等[11]首次將Word2Vec方法中基于負采樣的Skip-Gram模型(SGNS)遷移到基于物品的協同過濾(Item-basedCF)算法中,使用神經項嵌入算法學習物品的潛在特征,通過計算物品相似度完成個性化推薦;陳晉音等[12]提出一種基于圖過濾的快速密度聚類雙層網絡推薦算法,利用基于圖的過濾器快速確定節點執行度閾值,對數據內虛假信息進行過濾,再通過快速密度聚類雙層網絡完成推薦;黃金超等[13]提出一種基于偏好度特征構造的個性化推薦算法,使用改進的基于內容的推薦算法計算偏好分,構造物品偏好度特征矩陣,最后通過XGBoost非線性分類器對線上旅游業的子房型進行個性化推薦;張敏等[14]提出層疊降噪自動編碼器(StackedDenoisingAuto-Encoder,SDAE)與隱含因子模型(LatentFactorModel,LFM)相結合的混合推薦方法,SDAE通過引入商品評論文本,增強了LFM模型分解用戶評分矩陣后商品特征矩陣的一般性,有效提升了模型的評分預測精度。該類算法均涉及用戶基礎畫像、用戶訂單、用戶評論等多特征提取、多任務學習的特性,對于富含專題地圖產品的信息流場景,相關的統計類特征信息稀少,適用性不強。

  以上推薦方法對專題地圖產品個性化推薦提供了案例參考,針對專題地圖推薦場景中本體規則庫編制耗時較長,受用戶類型局限性較強,專題地圖特征利用不充分等問題,鑒于此,本文提出了面向專題地圖產品推薦場景的用戶偏好推薦方法。首先,通過Web用戶日志數據對特定類用戶的偏好興趣進行建模,計算用戶交互行為下每幅專題地圖的隱性評分,以減弱真實場景中出現的內容冷啟動和稀疏的評論數據問題;基于負采樣(NegativeSampling)的連續詞袋(ContinuousBagofWords,CBOW)模型對用戶行為序列進行建模,提取含用戶行為序列特征的地圖特征向量,其充分考慮前后地圖序列感知特征信息,可有效提高目標地圖的預測評分精度;基于CBOW模型優化的Item2Vec方法根據提取的地圖特征向量構建相似度矩陣,通過Cosine相似度函數計算專題地圖間的相似度,完成特定類用戶的個性化推薦。

  2、面向專題地圖產品推薦場景的用戶偏好推薦方法

  面向專題地圖產品推薦場景的用戶偏好推薦方法框架如圖1所示,主要包括:基于用戶交互行為數據的隱性評分計算、基于負采樣的CBOW模型優化和基于CBOW模型優化的Item2Vec方法3個部分。

  基于用戶交互行為數據的隱性評分計算,在PC/Web端采集用戶訪問專題地圖網站的用戶日志文件,文件中包含用戶ID、專題地圖ID及用戶對專題地圖的具體事件行為(具體專題地圖的點擊量、收藏、下載等)等隱式反饋數據。按用戶點擊鏈接的瀏覽路徑,對各事件行為分類,通過定義用戶事件行為隱性評分函數,計算特定類用戶對各類專題地圖的事件行為評分,獲得評分的專題地圖為用戶感興趣的專題地圖;通過定義時間衰減函數,計算特定類用戶對各類感興趣專題地圖的偏好程度[15],另提取各專題地圖的描述信息“專題地圖名稱/分類”,以上提取數據和計算結果構成了專題地圖產品推薦場景中用戶偏好推薦方法所需的訓練樣本。

  圖1專題地圖檢索的用戶偏好推薦方法框架

  基于負采樣的CBOW模型優化將高維的用戶行為序列轉化為低維的專題地圖特征向量,并帶有用戶行為特征的語義信息[16]。CBOW模型根據前后地圖序列預測目標專題地圖,相比于Word2Vec中另一種模型Skip-Gram,CBOW模型更新目標專題地圖及其前后地圖序列的初始化向量,作為正樣本;對樣本庫中前后地圖序列的鄰近地圖序列進行一次負采樣,構成負樣本。通過控制正負樣本比例,提升目標專題地圖的預測概率。此外,訓練樣本中出現較多生僻詞時,采樣模式為負采樣,效率高于原有的霍夫曼方法,有助于提升Item2Vec方法的召回性能。

  基于CBOW模型優化的Item2Vec方法從用戶日志文件中抽取用戶行為序列,按用戶點擊專題地圖鏈接的最新行為記錄構建專題地圖特征序列,通過基于負采樣的CBOW模型得到專題地圖特征向量,用于訓練模型參數。借助Word2Vec方法中詞向量之間距離遠近表示詞語義之間距離遠近的思想,專題地圖特征向量之間距離遠近可表征專題地圖之間隱語義的距離遠近[17],利用Cosine相似度函數構建專題地圖語義距離矩陣,根據矩陣預測每幅專題地圖的評分,完成特定類用戶的專題地圖個性化推薦。

  2.1基于用戶交互行為數據的隱性評分

  計算特定類用戶對專題地圖的隱性評分,從用戶日志文件中檢索用戶對專題地圖的事件行為數據,隱性評分通過不同類型事件行為的交互次數進行計量,MEij為構建的專題地圖-事件行為矩陣(式(1))。專題地圖產品有多個主題,每個主題下包含多個專題要素集合,用戶定位感興趣專題地圖通過一系列點擊專題地圖鏈接的事件行為完成。按用戶在線瀏覽路徑,用戶對各類專題地圖的事件行為分為4類:(1)網站主頁用戶對各主題的瀏覽行為(以下簡稱“瀏覽行為”);(2)用戶對感興趣主題描述信息的行為(以下簡稱“描述性行為”);(3)用戶對感興趣專題要素屬性信息的行為(以下簡稱“屬性行為”);(4)用戶對感興趣專題地圖進行收藏、下載等行為(以下簡稱“決定性行為”)。通過SQLScript從用戶日志文件中檢索的包含特定用戶ID和內容ID的數據條目格式(表1)。

  式中:i為用戶;j為含用戶事件行為的專題地圖;1表示用戶對感興趣專題地圖執行了所有事件行為;0表示用戶執行決定性行為之前的其他事件行為。

  特定類用戶對專題地圖的隱性評分計算流程如圖2所示,包括2個方面:(1)用戶對感興趣專題地圖執行各事件行為,通過權重系數和衰減系數對特定類用戶的偏好興趣進行建模。不同類型的事件行為分配不同的權重系數,依據各事件行為的權重系數,通過隱性評分函數,計算用戶對各專題地圖的事件行為評分,對評分數據進行標準化處理,SQL查詢返回特定類用戶的事件行為評分數據,按各數據項的事件行為時間節點,計算該數據項的衰減系數,基于用戶事件行為評分和衰減系數,計算特定類用戶對感興趣專題地圖的隱性評分;(2)用戶對一定量的感興趣專題地圖均執行“決定性行為”,其它各類型事件行為次數不同,則偏好程度存在一定差別。TF-IDF根據用戶查詢對文檔價值進行排序,引入逆用戶頻率IUF,對(1)中感興趣專題地圖的隱性評分進行過濾,確定特殊項專題地圖的重要性排序,通過逆用戶頻率IUF值,計算特定類用戶對特殊項專題地圖的事件行為評分,對評分數據進行標準化處理,獲得特定類用戶對特殊項專題地圖的隱性評分。

  (1)特定類用戶對感興趣專題地圖的隱性評分

  特定類用戶對專題地圖的事件行為評分高低取決于各類型事件行為的權重系數和所占比例[18]。依據帶權重系數的專題地圖事件行為隱性評分函數(式(2)),對專題地圖產品推薦場景中的用戶事件行為進行表示:“#event1”表示“決定性行為”、“#event2”表示“屬性行為”、“#event3”表示“描述性行為”。對用戶事件行為進行權重分配(表2),加權值的確定符合權重分配規則,其中,w1為“決定性行為”的加權值,w2為“屬性行為”的加權值,w3為“描述性行為”的加權值。確定各類型事件行為的加權值和交互次數后,計算用戶對各專題地圖的事件行為評分,利用最高評分對各評分數據進行標準化處理,獲得評分范圍在(1,10)的同比例評分數據(式(3))。

  表1用于計算專題地圖隱性評分的數據格式

  圖2特定類用戶對感興趣專題地圖隱性評分的計算流程

  表2用戶事件行為權重分配

  式中:u為用戶;i為專題地圖;w1…wn為各類型事件行為的權重系數;#event1…#eventn為各類型事件行為發生的次數;RI′u,i表示用戶關于專題地圖的事件行為評分。m為專題地圖數量;max(RI′u,i)表示各專題地圖事件行為評分的最大值;SRI′u,i表示標準化后各專題地圖的事件行為評分。

  SQL查詢返回特定類用戶的事件行為評分數據,通過時間衰減函數(式(4)),計算用戶行為過的專題地圖的衰減系數,用于測度一定時段內用戶對專題地圖的偏好程度,衰減系數是對用戶長短期行為序列的綜合優化,它弱化用戶的短期意圖,強化用戶的長期偏好興趣,反映用戶近期行為與長期行為的相關性,用戶期望評分呈緩慢下降趨勢,以提升用戶對感興趣專題地圖的隱性評分。式(5)是計算特定類用戶對感興趣專題地圖的隱性評分。

  式中:dt為用戶當前時間;dc#eventi為用戶對第i幅專題地圖開始事件行為的時間;timedelta()表示2個時間節點之間的時間差;days為用戶規定時段;dfi表示第i幅專題地圖的衰減系數。wi為第i幅專題地圖的事件行為權重系數;SRIu,i表示特定類用戶對感興趣專題地圖的隱性評分。

  (2)特定類用戶對特殊項專題地圖的隱性評分

  計算特定類用戶對特殊項專題地圖的隱性評分,確定用戶對具有“決定性行為”的感興趣專題地圖的偏好程度。計算逆用戶頻率IUF值(式(6)),確定用戶感興趣的專題地圖中存在的特殊項專題地圖,以對數函數方式計算是確保較少的感興趣專題地圖之間存在較大差別,用戶對特殊項專題地圖的事件行為次數越多,重要性就越大,IUF值可確定特定類用戶對特殊項專題地圖的偏好程度[19]。逆用戶頻率IUF值作為特殊項專題地圖的加權值,計算特殊項專題地圖的事件行為評分(式(7)),利用最高評分對各評分數據進行標準化處理,獲得評分范圍在(1,10)的同比例特殊項專題地圖的隱性評分數據(式(8))。

  式中:n為用戶u對特殊項專題地圖i執行各類型事件行為的次數;N為數據條目中用戶數量;“+1”表示對IUF進行平滑處理,使數據條目中未具有“決定性行為”的特殊項專題地圖得到一個合適的IUF值。RIu,i表示特殊項專題地圖的加權隱性評分;SRIu,i表示標準化后特定類用戶對特殊項專題地圖的隱性評分。

  至此,專題地圖產品推薦場景中(1,10)范圍內特定類用戶對各專題地圖的隱性評分計算完畢,使用其代替顯性評分,用戶ID、項目ID、專題地圖名稱/分類和專題地圖的隱性評分作為Item2Vec方法訓練的語料個體,將由訓練語料個體構成的評分實驗數據集命名為“ThematicCMaps”。

  2.2基于負采樣的CBOW模型優化

  CBOW是根據上下文信息預測目標詞出現概率的神經網絡模型,CBOW神經網絡結構分為3層,輸入層將用戶行為序列構成的item句子中某個中心詞的上下文信息初始化,獲得相關詞對應的詞向量,投影層將上下文信息各對應的初始化向量求和,輸出層輸出目標詞的詞向量[20]。負采樣優化以選定的中心詞和設置窗口長度后中心詞的上下文信息作為正樣本,輸入層映射到投影層生成訓練樣本的詞匯表,負采樣選取詞匯表中其他詞作為負樣本,通過二元邏輯回歸求解每個詞對應的待訓練參數θ和中心詞對應上下文中每個詞的詞向量[21,22],基于負采樣的CBOW模型優化訓練流程如圖3所示。

  從專題地圖評分實驗數據集“ThematicCMaps”中抽取一個用戶行為序列樣本,經CBOW模型讀取生成專題地圖詞匯表D,以中心專題地圖wt及其前后地圖序列Context(wt)為正樣本,通過負采樣在D中選取neg個特征專題地圖作為負樣本NEG(wt)。每一個Context(wt)經權重矩陣W初始化,在投影層求和作為語境向量,并與輸出權重矩陣W′相乘得到前后地圖序列的輸出向量,經激活函數處理,得到描述目標專題地圖向量的V-dim概率分布,最大概率索引的專題地圖為預測的目標專題地圖,最大化目標專題地圖輸出向量v′(wt)擬合語境向量x的目標函數為:

  式中:c為上下文窗口長度;K為負樣本數;P(wt|Context(wt))P(wt|Context(wt))表示最大化條件概率函數(Softmax),定義如下:

  式中:v(wt)為輸入的專題地圖向量;v′(wt)為輸出的專題地圖向量;v(wt)為逐次輸入的專題地圖;|v|為專題地圖向量的維度;|C|為專題地圖詞匯表大小;2*|v|*|C|表示模型參數個數;x為語境向量。P(wt|Context(wt))P(wt|Context(wt))的梯度復雜度與|C|值有關,此時,式(10)無法計算目標專題地圖的最大化概率,按照正負樣本數比例1:2,通過負采樣采集負樣本,將原來的|C|分類優化為|K|分類,優化后最大化正樣本的似然函數為:

  式中:Xw為正樣本中各專題地圖的向量和;θu∈Rmθu為待訓練參數,指投影層與輸出層的向量為待預測目標專題地圖u時,二者之間的全連接;Lw(u)為用于分類的判別閾值,判別為中心專題地圖時值為1,判別為負樣本時值為0。式(11)由2部分組成:σ(XwΤθu)Lw(u)表示前后地圖序列時,正樣本中預測目標專題地圖wt的概率;(1-σ(XwΤθu))(1-Lw(u))表示前后地圖序列時,負樣本中預測目標專題地圖wt的概率,優化似然函數增大正樣本的預測概率同時降低負樣本的的預測概率。為計算方便,損失函數采用對數損失函數,最終的優化目標函數為:

  圖3CBOW模型優化訓練流程

  通過隨機梯度上升法迭代更新neg個模型所需的參數Xw和θu,繼而迭代訓練樣本中每幅專題地圖對應的向量,優化目標函數在梯度推導中記為:L(wt,u),分別計算損失函數對參數Xw和θu的梯度,Xw為投影層中心專題地圖對應的前后地圖序列中所有向量的加和,θu共享于正負樣本對中每幅專題地圖對應的向量。損失函數中Xw和θu對偶,損失函數對Xw的偏導數與θu有關系,首先對參數θu求導,根據式(13)和式(14),參數Xw和θu的偏導數為:

  激活函數(Sigmoid)求導后,借助鏈導法則對參數Xw和θu進行梯度推導(式(15)):

  式中:XwΤθu表示模型輸出,激活函數處理后值為(0,1)。參數θu的初始值貢獻到e后,完成θu的下一次更新,根據模型學習率計算e值(e初值為0),由式(16)定義:

  待預測目標專題地圖u可能來自正樣本,也有可能來自負樣本。專題地圖詞匯表D的詞權值α設置為3/4,便于負采樣通過二元邏輯回歸求解模型參數,訓練完正負樣本對后,得到關于Xw的總梯度,依據總梯度值Xw完成自身更新,Xw和θu的更新公式為:

  式中:v(wContext)為Xw對正負樣本對的梯度加和。前后地圖序列中每幅專題地圖對應的向量都共享該梯度值,同樣地,θu的梯度加和貢獻到前后地圖序列中每幅專題地圖對應的向量上,前后地圖序列中每幅專題地圖對應的向量根據Xw、θu的梯度和完成自身更新,得到的專題地圖向量既是用戶行為過的內容項的向量,也是用戶的事件行為向量。注意的是,Xw依賴于θu存在,正負樣本對的梯度加和構成Xw的梯度后,更新每幅專題地圖對應的參數Xw和θu的時候,先更新Xw自身所占的比例梯度。

  2.3基于CBOW模型優化的Item2Vec方法

  借助Word2Vec方法計算詞語義距離的思想,從用戶日志文件中抽取用戶行為序列轉化為專題地圖特征序列,每個專題地圖特征序列表示一次完整的用戶行為,將帶有用戶行為特征的專題地圖特征序列放入Word2Vec進行訓練,得到專題地圖特征序列的隱語義向量,通過Cosine相似度函數計算專題地圖特征序列的語義距離矩陣,離線寫入KV存儲,計算每幅特征專題地圖相似度較高的Topk個鄰居特征專題地圖,完成特定類用戶的專題地圖個性化推薦[23],Item2Vec方法的訓練主流程如圖4所示。

  通過Cosine相似度函數計算特征專題地圖兩兩之間的隱語義相關度(式(19)),獲得特征專題地圖相似度矩陣(Item-Sim)。其中,專題地圖的隱性評分被視作n維空間向量,根據向量之間的角度計算特征專題地圖之間的相似性(式(20))。專題地圖產品協同過濾進行專題地圖評分預測時,不需要校正用戶的平均評分,預測評分由用戶本身對專題地圖的事件行為決定。

  式中:n為專題地圖評分實驗數據集中專題地圖數目;xu,1k,xu,2k為含用戶行為特征的專題地圖向量的分量;Iu,1k,Iu,2k為專題地圖特征向量。

  3、實驗數據及結果分析

  3.1實驗數據

  專題地圖評分實驗數據集“ThematicCMaps”的數據來源是PC端采集的WebService記錄(http://www.onegreen.net/),用戶日志文件中詳細記錄了用戶的瀏覽行為、文件下載等信息。數據預處理后,計算其隱性評分,實驗數據集包含1179幅地圖的分類描述數據(maps.txt)和個人用戶的872條隱性評分數據(ratings.txt),數據示例格式如下:

  圖4Item2Vec訓練主流程

  分類描述數據maps.txt中數據條目格式:

  隱性評分數據ratings.txt中數據條目格式:

  本文選取MovieLens(http://movielens.org)收集的電影評分數據集作為驗證數據集,目的是為了驗證本文構建的面向專題地圖產品推薦場景的用戶偏好推薦方法和專題地圖實驗數據集的有效性、可行性[24]。MovieLens-100K、MovieLens-1M、MovieL-ens-10M和MovieLens-20M4個數據集的詳細信息見表3所示。MovieLens基準數據集是推薦系統中常用的高質量實驗數據集,由GroupLens研究組在UniversityofMinnesot中組織,用戶對自己看過的電影進行評分,分值范圍:0~5。

  3.2評測指標

  采用均方根誤差(RMSE)評價模型的預測評分性能(式(21)),RMSE是推薦系統中最受歡迎的用來度量預測評分準確性的指標,RMSE反映預測評分偏離真實評分的程度,值越小,評分預測精度越高[25]。存在數據集D={(uk,ik,SRIuk,ik)},計算RMSE:

  表3驗證數據集信息

  式中:uk為第k個行為用戶ID;ik為第k個含用戶行為特征的物品ID;SRIuk,ik,和SR?Iuk,ik為第k個用戶對物品的真實評分和預測評分;N為數據集評分量。

  3.3參數設置和模型對比

  根據實驗數據集和驗證數據集大小,本文所提面向專題地圖產品推薦場景的用戶偏好推薦方法Item2Vec中,基于負采樣的CBOW模型訓練相關的參數設置見表4所示。

  本文選取LFM、PersonalRank、ContentBased3種傳統的非神經網絡模型與本文提出的用戶偏好推薦方法進行比較;選取SVD和CBOW(負采樣)作為Item-Item協同過濾的代表模型,比較在信息流場景中數據量不同,生僻詞出現次數不同時的評分預測區別;選取以霍夫曼采樣方式的Item2Vec基礎方法、YouTubeNet模型作為個性化推薦召回算法的深度學習比較模型。

  表4模型訓練參數設置

  (1)LFM:通過隱含特征構建用戶興趣和物品關系的潛在因子矩陣,對矩陣分解和評分偏移量模型進行正則化處理,減弱模型的泛化能力。

  (2)PersonalRank:基于圖的推薦算法將用戶行為轉化為二分圖,依據頂點相關度對用戶、物品進行排序,相關度越高的物品在用戶推薦列表中越靠前。

  (3)ContentBased:基于內容的推薦算法分別刻畫用戶和項目畫像,通過多種分類器對不同權重的項目結果進行線性加權,結合用戶分類結果進行推薦。

  (4)SVD:奇異值分解(SingularValueDecomposition)方法將高維度用戶評分矩陣分解為隱藏特性空間中的用戶特性矩陣和產品特性矩陣,SVD矩陣分解模型在NetflixPrize比賽中可生成產品建議[26]。

  (5)YouTubeNet:YouTubeNet推薦模型首先引入了用戶的個性化信息(用戶點擊記錄,用戶年齡、性別等),在此基礎下學習用戶特征向量和物品序列特征向量,直接使用內積結果選出用戶最感興趣的物品列表[27]。

  3.4結果分析

  本文在用于專題地圖產品偏好推薦的評分實驗數據集“ThematicCMaps”和4種不同數據量的驗證數據集MovieLens中運行4種傳統推薦模型:LFM、PersonalRank、ContentBased和SVD,以及本文提出的推薦方法,以多次實驗的預測評分和真實評分的RMSE指標平均值來衡量各模型推薦效果,表5給出了各模型在測試集上的評分預測性能對比結果。從表5可知,本文所提用于專題地圖產品推薦場景的用戶偏好推薦方法,在專題地圖評分實驗數據集和驗證數據集上的評分預測精度均優于4種傳統推薦模型,且推薦性能均有所提升,說明本文所提方法,相比于LFM和SVD,對用戶和項目的潛在特征有較好的學習能力;相比于PersonalRank和ContentBased,具有有效的特征提取能力,能對用戶行為的情景信息進行有效建模。其中,在實驗數據集中,基于CBOW模型優化的Item2Vec方法比4種傳統推薦模型在預測準確率上提升:16.44%、15.33%、13.80%和1.49%。在4個驗證數據集中,總體上本文所提方法的預測準確率優于4種傳統推薦模型,相比于LFM模型,本文所提方法預測準確率整體提升27.85%;相比于PersonalRank模型,本文所提方法預測準確率整體提升27.45%;相比于ContentBased模型,本文所提方法預測準確率整體提升18.63%;相比于SVD模型,本文所提方法預測準確率整體提升4.95%。按模型在數據集中的實驗結果,除ContentBased模型外,本文所提方法相比于其余3種模型在提升預測準確率上均為正相關,隨數據集中數據量的不斷變大,評分預測性能提升越明顯。在基于神經網絡的推薦模型中,本文所提方法相比于以霍夫曼采樣方式的Item2Vec基礎方法,實驗數據集中提升0.45%,驗證數據集中提升0.55%、0.68%、1.88%和2.97%,說明評分預測精度上優于后者,評分預測性能也有了一定的提升;本文對YouTubeNet模型作了改動,在不引入用戶個性化信息的情況下,只對具有用戶行為特征的物品序列進行建模,結果表明,實驗數據集中預測準確率提升0.97%,驗證數據集中預測準確率提升1.19%、1.13%、4.24%和5.78%,說明本文所提方法在評分預測精度上優于后者,且評分預測性能有了大幅度提升。為驗證本文所提方法在不同比例訓練集下的評分預測性能變化差異,本文對MovieL-ens-20M數據集進行不同大小的切分,實驗結果見表6所示。

  表5各模型預測評分性能對比

  從MovieLens-20M數據集中隨機抽取5種不同比例的數據子集用于模型訓練,由表6可知,本文所提方法在10%、30%和50%的數據子集上的預測準確率,相比于SVD提升了4.09%、4.47%和5.75%,預測準確率提升較低,但在70%和90%的數據子集中,相比于SVD,本文所提方法的預測準確率提升了7.28%和9.50%,預測準確率提升較高,說明隨訓練量的增多,本文所提方法的評分預測準確率上升,評分預測性能優于SVD模型。

  表6模型在MovieLens-20M數據集切分下的實驗結果

  表5、表6給出了本文所提方法與其他推薦模型在評分預測性能上的定量比較,針對構建的面向專題地圖推薦場景中專題地圖檢索的實驗數據集,進行離線測試,定性比較兩種推薦模型的推薦結果(表7)。表7顯示獲得特定類用戶最高預測評分的種子專題地圖和相似度排名前5的鄰居專題地圖,相似度較高的專題地圖則是為特定類用戶進行推薦的項目。由表7可知,基于CBOW模型優化的Item2Vec方法推薦的專題地圖列表相似度較高,基本屬于同一地圖主題下的各專題指標,推薦效果優于SVD模型,“ThematicCMaps”數據量較少,但仍能很好地推斷各專題地圖之間的相似關系。

  表72種模型的推薦結果對比

  4、結論

  面對現有專題地圖推薦場景中用戶偏好建模案例研究相對較少,專題地圖評分實驗數據集缺少,通過編制本體規則等傳統方法進行地圖推薦的時效性不強等問題,本文提出面向專題地圖產品推薦場景的用戶偏好推薦方法,基于WebService記錄構造專題地圖序列的統計類特征,如專題地圖的點擊量、收藏率等,通過計算專題地圖隱性評分,完成用戶偏好興趣建模;基于負采樣優化的CBOW模型,可有效提升目標專題地圖的評分預測精度;基于CBOW模型優化的Item2Vec方法,充分考慮專題地圖序列之間的局部共現關系,根據專題地圖預測評分,完成個性化推薦,推薦效果優于傳統方法,形成了較為合理的專題地圖向量檢索式召回策略。主要結論如下:

  (1)首先使用特定類用戶對感興趣專題地圖隱性評分的計算方法,構建用于專題地圖檢索的實驗數據集“ThematicCMaps”。針對不同類用戶形成不同專題地圖分類粒度的評分,彌補了用戶行為序列中特征專題地圖強度無區分性的不足,解決了專題地圖產品推薦場景中無專題地圖評分實驗數據集的不足,根據用戶行為日志計算的隱性評分能客觀反映檢索用戶的真實偏好程度。CBOW模型對專題地圖的“專題地圖名稱/分類”標簽的多次迭代更新,獲得的專題地圖的文本特征,可有效避免內容冷啟動問題。

  (2)基于負采樣的CBOW模型優化,控制負樣本個數是正樣本個數的2倍,可過濾點擊序列長度小于5的樣本,過濾之后,用戶點擊序列能覆蓋99%的預測專題地圖。CBOW模型經負采樣改進,降低了梯度下降過程中的計算量,參數Xw和θu的迭代更新,可有效提高對大型數據集的訓練效率和評分預測性能。

  (3)基于CBOW模型優化的Item2Vec方法是將神經項嵌入物品的協同過濾,在類似于專題地圖推薦的信息流場景中,數據量較大,生僻詞出現次數較多,CBOW模型預測目標專題地圖會受到前后地圖序列的影響,地圖特征向量的跳幀隨中心專題地圖的前后地圖序列對應的地圖向量一起調整,多次的前后地圖序列對應的向量調整使得預測目標專題地圖的向量更加準確,且這種訓練方式適用于分類明確、生僻詞較多的信息流場景。Item2Vec方法學習出來的專題地圖序列向量含用戶實時的偏好行為特征,具有較好的相似性,可覆蓋10%以上的曝光占比,在專題地圖個性化推薦召回層,專題地圖點擊率提升了1.83%,用戶時長提升了1.11%,所以與傳統推薦模型相比,基于CBOW模型優化的Item2Vec方法在專題地圖推薦場景中能取得較好的推薦效果。

  本文所提方法為語義環境下專題地圖的Web上下文感知特征提取與建模提供了新的思路,專題地圖向不同情境的特定用戶傳遞偏好信息,個性化推薦基于用戶認知語義為特定用戶快速匹配合理有效的專題地圖,量化專題地圖推薦場景中不同類用戶的知識構成和偏好程度,可促進專題地圖服務中專題制圖技術的發展,提高適應于不同類用戶的專題地圖質量,滿足專題地圖推薦場景中的個性化推薦效率。

  參考文獻:

  [2]鄭束蕾,陳毓芬,楊春雷,等.地圖個性化認知適合度的眼動試驗評估[J].測繪學報,2015,44(s1):27-35.

  [3]方瀟,李萌,包芃,等.基于眼動實驗的個性化地圖推薦模型探討[J].地理空間信息,2015,13(1):167-170.

  [4]馮天文,李軼鯤,劉濤,等.語義擴散檢索方法研究——以火災應急圖組庫為例[J].測繪科學,2018,43(12):115-121.

  [8]姜波,張曉筱,潘偉豐.基于二部圖的服務推薦算法研究[J].華中科技大學學報(自然科學版),2013,41(s2):93-99.

  [9]黃立威,江碧濤,呂守業,等.基于深度學習的推薦系統研究綜述[J].計算機學報,2018,427(7):191-219.

  [10]吳彥文,劉闖.基于用戶偏好和可疑度的推薦方法研究[J].計算機應用研究,2018,35(12):118-120.

  [12]陳晉音,吳洋洋,林翔.基于圖過濾的快速密度聚類雙層網絡推薦算法[J].控制理論與應用,2019,36(4):542-552.

  [13]黃金超,張佳偉,陳寧,等.基于偏好度特征構造的個性化推薦算法[J].上海交通大學學報,2018,52(7):770-776.

  [14]張敏,丁弼原,馬為之,等.基于深度學習加強的混合推薦方法[J].清華大學學報(自然科學版),2017,57(10):1014-1021.

  [15]陳冬林,聶規劃,劉平峰.基于網頁語義相似性的商品隱性評分算法[J].系統工程理論與實踐,2006,26(11):98-102.

  [17]劉淑涵,王艷東,付小康.利用卷積神經網絡提取微博中的暴雨災害信息[J].地球信息科學學報,2019,21(7):1009-1017.

丁香五月啪啪中文字幕