2011年5月4日 星期三

Where’s Waldo: Matching People in Images of Crowds

Where’s Waldo: Matching People in Images of Crowds

Rahul Garg, Deva Ramanan, Steven M. Seitz, Noah Snavely
CVPR 2011
=================================================

這篇paper的目的很簡單,就是像在玩 "where's Waldo" 這個遊戲一樣
在一張人很多的相片裡,找出所要找的那個指定的人

這個問題困難的地方在於要找的對象通常很小,而且是在一大群人裡面找出來
傳統的一些方法,像是取feature 作matching 或是用人臉來判斷 效果都很有限
因為人很小所以feature一定很少,且人常常不是正面,所以也沒有人臉feature

不過這篇paper的假設很強,他是說在接近的時間點,同一個地點會有不同的拍攝者
也就是說這些照片是時間間隔很短,拍的場景幾乎一樣,但角度不同
那一大群人也幾乎是同一群,要找的人就在裡面

第一步是先把 user input 的那個人learn appearance model
這裡有提到如果build 相當精確的model,那就會因為動作不同或遮蔽物而影響結果
因此這裡採用的是part-based,也就是分別算出每個部分的分數,最後再合併
值得注意的是這裡的training data就只有user 的那張input
color model用的是 pixel-level RGB
因為要找的人很小,SIFT等的feature 不多
另外這裡也有說如果color特別明顯,它的weight就會上升
對於遮蔽的問題,這裡用的part-based的方法,然後根據不同part給不同的weight
最後找出的目標會用2D的投射來猜出這樣的動作改變是否合理

除了對目標一些feature的處理,還用到了3D環境一些簡單的model來輔助
例如說把input跟candidate投影到1D上面,看看高度等限制是否合理
然後用了一些假設:
a. 人通常會在同一群人裡
b. 鄰近的人通常就會是那群人
接著用MRF optimization 作出最後的結果,判斷是不是有找到

=================================================

實驗的部分
這裡有強調groundtruth是他們自己標的
但標這個的工作就算是由人來做也是相當困難
有些時候甚至是system找出來才發現之前沒有標到
最後利用PR-curve來呈現出結果
=================================================

優點:
1. 整個問題很有創意,而且算是自己定義的新問題
2. 這個問題本身就算是要人來做也不容易,問題的難度很高

缺點:
1. 假設很強,也就是換個場景就找不到,例子也都是在同一個時間點下的結果
2. 實驗的groundtruth那裡其實不是很嚴謹,不過這就算要人來標也很困難十
3. 每個input 的找出的結果個數應該都不多,不知道怎麼畫出這麼詳細的PR-curve

沒有留言:

張貼留言