2011年3月22日 星期二

Probabilistic Latent Semantic Indexing

Probabilistic Latent Semantic Indexing

Thomas Hofmann
International Computer Science Institute, Berkeley, CA &
EECS Department, CS Division, UC Berkeley
hofmann@cs.b   erkeley.edu

CVPR' 1999
=======================================================

這個方法是用在text search 的 indexing system上

傳統的text search作法就是利用literal term matching
也就是每個字去比對
但這樣的缺點是因為text 的表示很有可能not precise
e.g. query term 出現在很多class 裡
因此就有人提出了LSA的概念
想要找出latent term 再用這些term去search
這篇paper提出的方法就是去improve LSA   兩者主要的差異在於:
a. short vector   V.S   long vector
b. TEM   V.S   SVD

tempered EM 跟原本EM的方法只差在多乘上一個weight
這樣在做EM converge的時候可以調整去避免 overfitting

後面search的方法也是用 vector-space model(VSM)
1. transformation function:  TF
2. term weighting scheme: IDF
3. similarity measure: cosine sim
簡單地說就是用tf-idf 然後算cosine similarity,這些現在來看就是標準程序

實驗的部分
列出不同class 找出的 latent term 和它們彼此的關係
比較傳統(tf-idf)、LSI、pLSI 三者的precision and recall
從結果來看  pLSI 在各dataset的表現都勝過 LSI
=======================================================

優點:
1. latent term 的觀念 (不過最早提出的不是這篇)
2. 詳細的數學式推導
3. result 跟之前的state-of-art作比較,一目了然

缺點:
1. 標準的踩在巨人肩膀上,其實觀念就是LSA,不過找到更好的方法去improve
2. 找出的latent term 好像沒有考慮出現在class的機率(出現在越少class越好)
3. 同一class的latent term 應該要越diverse越好
(2跟3的觀念在image search 裡就常常被強調,不過這篇好像都沒考慮)

沒有留言:

張貼留言