人臉識別技術(shù)這些年已經(jīng)發(fā)生了重大的變化。傳統(tǒng)方法依賴于人工設(shè)計的特征(比如邊和紋理描述量)與機器學習技術(shù)(比如主成分分析、線性判別分析或支持向量機)的組合。人工設(shè)計在無約束環(huán)境中對不同變化情況穩(wěn)健的特征是很困難的,這使得過去的研究者側(cè)重研究針對每種變化類型的專用方法,比如能應對不同年齡的方法、能應對不同姿勢的方法、能應對不同光照條件的方法等。近段時間,傳統(tǒng)的人臉識別方法已經(jīng)被基于卷積神經(jīng)網(wǎng)絡(CNN)的深度學習方法接替。深度學習方法的主要優(yōu)勢是它們可用非常大型的數(shù)據(jù)集進行訓練,從而學習到表征這些數(shù)據(jù)的最佳特征。網(wǎng)絡上可用的大量自然人臉圖像已讓研究者可收集到大規(guī)模的人臉數(shù)據(jù)集,這些圖像包含了真實世界中的各種變化情況。使用這些數(shù)據(jù)集訓練的基于 CNN 的人臉識別方法已經(jīng)實現(xiàn)了非常高的準確度,因為它們能夠?qū)W到人臉圖像中穩(wěn)健的特征,從而能夠應對在訓練過程中使用的人臉圖像所呈現(xiàn)出的真實世界變化情況。此外,深度學習方法在計算機視覺方面的不斷普及也在加速人臉識別研究的發(fā)展,因為 CNN 也正被用于解決許多其它計算機視覺任務,比如目標檢測和識別、分割、光學字符識別、面部表情分析、年齡估計等。
人臉識別系統(tǒng)通常由以下構(gòu)建模塊組成:
人臉檢測。人臉檢測器用于尋找圖像中人臉的位置,如果有人臉,就返回包含每張人臉的邊界框的坐標。如圖 3a 所示。
人臉對齊。人臉對齊的目標是使用一組位于圖像中固定位置的參考點來縮放和裁剪人臉圖像。這個過程通常需要使用一個特征點檢測器來尋找一組人臉特征點,在簡單的 2D 對齊情況中,即為尋找最適合參考點的最佳仿射變換。圖 3b 和 3c 展示了兩張使用了同一組參考點對齊后的人臉圖像。更復雜的 3D 對齊算法(如 [16])還能實現(xiàn)人臉正面化,即將人臉的姿勢調(diào)整到正面向前。
人臉表征。在人臉表征階段,人臉圖像的像素值會被轉(zhuǎn)換成緊湊且可判別的特征向量,這也被稱為模板(template)。理想情況下,同一個主體的所有人臉都應該映射到相似的特征向量。
人臉匹配。在人臉匹配構(gòu)建模塊中,兩個模板會進行比較,從而得到一個相似度分數(shù),該分數(shù)給出了兩者屬于同一個主體的可能性。