meta AI的研究團隊近期揭曉了一項創(chuàng)新成果——LIGER模型,這一突破性的人工智能模型巧妙融合了密集檢索與生成檢索的優(yōu)勢,顯著提升了生成式推薦系統(tǒng)的整體性能。
在現代數字世界中,推薦系統(tǒng)作為連接用戶與各類內容、產品或服務的橋梁,扮演著至關重要的角色。傳統(tǒng)的密集檢索方法,通過序列建模來計算項目和用戶的表示,雖然在一定程度上有效,但因其需要為每個項目生成嵌入,導致計算資源和存儲需求巨大。隨著數據集的日益龐大,這些限制愈發(fā)明顯,影響了系統(tǒng)的可擴展性。
另一方面,新興的生成檢索方法試圖通過生成模型預測項目索引來降低存儲需求。然而,這種方法在性能上有所欠缺,特別是在處理冷啟動項目時,即那些用戶交互有限的新項目,表現尤為不佳。
為了解決這些挑戰(zhàn),meta AI攜手威斯康星大學麥迪遜分校、ELLIS Unit、LIT AI Lab、機器學習研究所及JKU Linz等機構,共同推出了LIGER模型。LIGER,即“LeveragIng dense retrieval for GEnerative Retrieval”的縮寫,它巧妙地將生成檢索的計算效率與密集檢索的精確度相結合。
LIGER模型的工作原理是,首先利用生成檢索生成候選集,以及包含語義ID和文本屬性的項目表示。隨后,通過密集檢索技術對這些候選集進行進一步精煉,從而在效率和準確性之間找到了完美的平衡點。LIGER采用了雙向Transformer編碼器和生成解碼器,其密集檢索部分整合了項目文本表示、語義ID和位置嵌入,并通過余弦相似度損失進行優(yōu)化;而生成部分則使用波束搜索,根據用戶交互歷史預測后續(xù)項目的語義ID。
通過這種混合推理過程,LIGER不僅降低了計算需求,還保持了高質量的推薦。更重要的是,LIGER能夠很好地泛化到未見過的項目,這一特性解決了先前生成模型在處理新項目時的關鍵限制。
在Amazon Beauty、Sports、Toys以及Steam等多個基準數據集上的評估結果顯示,LIGER的性能持續(xù)優(yōu)于現有的最先進模型,如TIGER和UniSRec。例如,在Amazon Beauty數據集上,LIGER對冷啟動項目的Recall@10得分為0.1008,而TIGER的得分為0。
同樣,在Steam數據集上,LIGER的Recall@10達到了0.0147,也明顯優(yōu)于TIGER的0。隨著生成方法檢索的候選數量增加,LIGER與密集檢索的性能差距逐漸縮小,這進一步證明了其強大的適應性和高效性。
LIGER的成功不僅為構建更高效、更精準的推薦系統(tǒng)提供了新的思路,也為解決傳統(tǒng)推薦系統(tǒng)在計算資源、存儲需求和冷啟動項目處理上的難題提供了有效方案。