此頁面涵蓋如何在 Azure Kinect DK 中使用深度相機。 深度相機是兩個相機中的第二個。 如前幾節所述,另一個相機是 RGB 相機。
作業原則
Azure Kinect DK 深度相機採用振幅調變連續波 (AMCW) 飛行時間 (ToF) 技術原理。 攝像機將近 IR (NIR) 光譜中的調節照明投射到現場。 然後,它會記錄從相機到場景和返回的光線所花費的時間的間接測量。
這些度量會進行處理以產生深度地圖。 深度地圖是影像每個圖元的 Z 座標值集合,以公厘為單位。
除了深度地圖,我們也會取得所謂的乾淨 IR 讀數。 乾淨 IR 讀數中的像素值會與從場景傳回的光線量成正比。 影像看起來類似一般 IR 映射。 下圖顯示深度圖範例(左圖)和對應的乾淨 IR 影像(右圖)。
主要功能
深度相機的技術特性包括:
- 具有先進圖元技術的 100 萬像素 ToF 成像晶片,能夠提高調節頻率和深度精確度。
- 兩個 NIR 激光二極管用於近距離和寬視野範圍(FoV)深度模式。
- 世界上最小的 ToF 像素,尺寸為 3.5微米乘以3.5微米。
- 自動每個像素增益調整,實現大範圍動態範圍,使近距和遠距的物體都能清晰捕獲。
- 全域快門,使其在陽光下的效能得以提升。
- 多階段深度計算方法,即使在晶元、激光和電源供應器變化的存在下,也能提供強大的精確度。
- 系統性錯誤和隨機錯誤都很少。
深度相機會將未經調整的 IR 影像傳輸到主電腦。 在電腦上,GPU 加速的深度引擎軟體會將原始訊號轉換成深度圖。 深度相機支持數種模式。 窄視野(FoV)模式適用於 X 維度和 Y 維度範圍較小但 Z 維度範圍較大的場景。 如果場景具有較大的 X 和 Y 範圍,但 Z 範圍較小, 則寬的 FoV 模式 較適合。
深度相機支援 2x2 像素合併模式 ,相較於對應的 未合併模式,擴充 Z 範圍。 合併像素通常會以降低影像解析度為代價來完成。 除了 1 百萬像素(MP)模式最多能以每秒 15 幀的速度執行外,所有模式最多可達每秒 30 幀。 深度相機也提供 被動 IR 模式。 在此模式中,相機上的照明器不會作用中,而且只會觀察到環境照明。
相機效能
相機的效能以系統性和隨機性誤差來衡量。
系統誤差
系統誤差定義為在去除雜訊后測量深度與正確(地面真相)深度之間的差異。 我們會計算靜態場景許多畫面格的時態平均,以盡可能消除深度雜訊。 更精確地說,系統錯誤的定義如下:
其中 dt 表示時間 t 的量值深度,N 是平均程式中使用的框架數目,dgt 是地面真相深度。
深度相機的系統性錯誤規格排除了多重路徑干擾(MPI)。 MPI 是當一個感測器圖元整合由多個物件反射的光線時。 MPI 在我們的深度相機中已部分減弱,是透過使用較高的調節頻率與深度失效,我們稍後會介紹。
隨機誤差
假設我們拍攝同一物件的 100 張照片,而不移動相機。 在 100 個影像中,物件的深度會稍有不同。 這種差異是由拍攝噪音所造成。 射門雜訊是擊中感測器的光子數目會隨著時間的隨機因素而有所不同。 我們將這種隨機誤差在靜態場景中定義為深度隨時間變化的標準偏差:
其中 N 表示深度測量的數目, dt 代表時間 t 的深度測量, d 表示在所有深度測量 dt 上計算的平均值。
失效
在某些情況下,深度相機可能無法提供某些像素的正確值。 在這些情況下,深度像素會被失效。 深度值等於 0 表示無效的像素。 深度引擎無法產生正確值的原因包括:
- 在主動式紅外線照明遮罩之外
- 飽和 IR 訊號
- 低紅外線訊號
- 篩選極端值
- 多重路徑干擾
照明面具
像素在作用中的 IR 照明遮罩外時會失效。 我們不建議使用這類圖元的訊號來計算深度。 下圖顯示因照明遮罩造成無效的範例。 無效的圖元是在寬視野 (FoV) 模式中圓形外側的黑色圖元(左),以及在窄視野 (FoV) 模式中六邊形的圖元(右)。
訊號強度
當像素包含飽和的 IR 信號時,該像素就會失效。 當像素飽和時,階段資訊會遺失。 下圖顯示飽和 IR 訊號失效的範例。 查看箭頭指向深度和 IR 影像中的範例像素。
當 IR 訊號不夠強大而無法產生深度時,也會發生失效。 下圖顯示低 IR 訊號無效的範例。 查看深度和 IR 影像中指向範例像素的箭頭。
模棱兩可的深度
如果像素從場景中的多個物件接收到訊號,那麼這些像素也可能失效。 常見的情況是可以在角落看到這種無效化。 由於場景幾何,相機的 IR 光線從一面牆反射到另一面牆上。 這種反射光線會導致圖元的測量深度模棱兩可。 深度演算法中的篩選會偵測這些模棱兩可的訊號,並使圖元失效。
下圖顯示多重路徑偵測所造成的失效範例。 您也可以看到來自一個相機檢視中失效的表面區域(上列)如何在另一個相機檢視中再次顯示(下列)。 此影像展示從某個角度無效的表面可能在另一個角度中可見。
多重路徑的另一個常見案例是含有來自前景和背景混合信號的像素(例如,對象邊緣周圍)。 在快速移動過程中,您可能會在邊緣周圍看到更多無效的像素。 額外的失效像素是因為原始深度捕捉的曝光時段。