2011 AMMAI: Where’s Waldo: Matching People in Images of Crowds

Where’s Waldo: Matching People in Images of Crowds

Rahul Garg, Deva Ramanan, Steven M. Seitz, Noah Snavely
CVPR 2011
=================================================

這篇paper的目的很簡單，就是像在玩 "where's Waldo" 這個遊戲一樣
在一張人很多的相片裡，找出所要找的那個指定的人

這個問題困難的地方在於要找的對象通常很小，而且是在一大群人裡面找出來
傳統的一些方法，像是取feature 作matching 或是用人臉來判斷效果都很有限
因為人很小所以feature一定很少，且人常常不是正面，所以也沒有人臉feature

不過這篇paper的假設很強，他是說在接近的時間點，同一個地點會有不同的拍攝者
也就是說這些照片是時間間隔很短，拍的場景幾乎一樣，但角度不同
那一大群人也幾乎是同一群，要找的人就在裡面

第一步是先把 user input 的那個人learn appearance model
這裡有提到如果build 相當精確的model，那就會因為動作不同或遮蔽物而影響結果
因此這裡採用的是part-based，也就是分別算出每個部分的分數，最後再合併
值得注意的是這裡的training data就只有user 的那張input
color model用的是 pixel-level RGB
因為要找的人很小，SIFT等的feature 不多
另外這裡也有說如果color特別明顯，它的weight就會上升
對於遮蔽的問題，這裡用的part-based的方法，然後根據不同part給不同的weight
最後找出的目標會用2D的投射來猜出這樣的動作改變是否合理

除了對目標一些feature的處理，還用到了3D環境一些簡單的model來輔助
例如說把input跟candidate投影到1D上面，看看高度等限制是否合理
然後用了一些假設：
a. 人通常會在同一群人裡
b. 鄰近的人通常就會是那群人
接著用MRF optimization 作出最後的結果，判斷是不是有找到

=================================================

實驗的部分
這裡有強調groundtruth是他們自己標的
但標這個的工作就算是由人來做也是相當困難
有些時候甚至是system找出來才發現之前沒有標到
最後利用PR-curve來呈現出結果
=================================================

優點：
1. 整個問題很有創意，而且算是自己定義的新問題
2. 這個問題本身就算是要人來做也不容易，問題的難度很高

缺點：
1. 假設很強，也就是換個場景就找不到，例子也都是在同一個時間點下的結果
2. 實驗的groundtruth那裡其實不是很嚴謹，不過這就算要人來標也很困難十
3. 每個input 的找出的結果個數應該都不多，不知道怎麼畫出這麼詳細的PR-curve

2011 AMMAI

2011年5月4日星期三

Where’s Waldo: Matching People in Images of Crowds

沒有留言:

張貼留言

2011年5月4日 星期三

Where’s Waldo: Matching People in Images of Crowds

沒有留言:

張貼留言

2011年5月4日星期三