Udostępnij za pośrednictwem


Kamera głębi zestawu Azure Kinect DK

Na tej stronie opisano sposób używania aparatu głębi w zestawie Azure Kinect DK. Kamera głębi jest drugą z dwóch kamer. Jak opisano w poprzednich sekcjach, drugi aparat jest aparatem RGB.

Zasady operacyjne

Kamera głębokości zestawu Azure Kinect DK implementuje zasadę Czas lotu (ToF, Continuous Wave Modulated Continuous Wave) Amplitude Modulated (AMCW). Kamera rzutowała oświetlenie modulowane w spektrum niemal IR (NIR) na scenę. Następnie rejestruje pośredni pomiar czasu, w jaki zajmuje światło, aby podróżować z kamery do sceny i z powrotem.

Te pomiary są przetwarzane w celu wygenerowania mapy głębokości. Mapa głębokości to zestaw wartości współrzędnych Z dla każdego piksela obrazu mierzonego w jednostkach milimetrów.

Wraz z mapą głębokości uzyskujemy również tzw. czysty odczyt środowiska IR. Wartość pikseli podczas odczytu czystego środowiska IR jest proporcjonalna do ilości światła zwróconego ze sceny. Obraz wygląda podobnie do zwykłego obrazu środowiska IR. Na poniższej ilustracji przedstawiono przykładową mapę głębokości (po lewej) i odpowiedni obraz czystego środowiska IR (po prawej).

Głębokość i środowisko IR obok siebie

Kluczowe cechy i funkcje

Cechy techniczne kamery głębokości obejmują:

  • Mikroukład obrazu 1-megapikselowy toF z zaawansowaną technologią pikseli umożliwiającą wyższe częstotliwości modulacji i precyzję głębokości.
  • Dwie diody laserowe NIR umożliwiające tryby głębokości niemal i szerokiego pola widzenia (FoV).
  • Najmniejszy na świecie piksel ToF, o 3,5μm o 3,5μm.
  • Automatyczne zaznaczanie na piksel umożliwiające szybkie przechwytywanie dużych zakresów dynamicznych, dzięki czemu obiekty bliskie i dalekie mogą być przechwytywane w sposób czysty.
  • Globalna migawka, która pozwala na lepszą wydajność światła słonecznego.
  • Metoda obliczania głębokości wielofazowej, która umożliwia niezawodną dokładność nawet w przypadku zmiany układu, lasera i zasilania.
  • Niskie błędy systematyczne i losowe.

Moduł głębokości

Kamera głębinowa przesyła nieprzetworzone modulowane obrazy IR do komputera hosta. Na komputerze oprogramowanie z przyspieszoną głębią procesora GPU konwertuje nieprzetworzony sygnał na mapy głębokości. Kamera głębinowa obsługuje kilka trybów. Tryby wąskiego pola widoku (FoV) są idealne dla scen o mniejszych zakresach w wymiarach X i Y, ale większych zakresów w wymiarze Z. Jeśli scena ma duże zakresy X i Y, ale mniejsze zakresy Z, szerokie tryby FoV są lepiej dopasowane.

Kamera głębinowa obsługuje tryby łączenia 2x2, aby rozszerzyć zakres Z w porównaniu z odpowiednimi trybami bez powiązania. Kwantowanie odbywa się kosztem obniżenia rozdzielczości obrazu. Wszystkie tryby mogą być uruchamiane z maksymalnie 30 ramek na sekundę (fps) z wyjątkiem trybu 1 megapikseli (MP), który działa z maksymalną szybkością klatek na sekundę 15 klatek na sekundę. Kamera głębina zapewnia również pasywny tryb IR. W tym trybie światła na kamerze nie są aktywne i obserwuje się tylko oświetlenie otoczenia.

Wydajność aparatu

Wydajność aparatu jest mierzona jako systematyczne i losowe błędy.

Błąd systematyczny

Błąd systematyczny jest definiowany jako różnica między zmierzoną głębokością po usunięciu szumu a prawidłową (prawdą naziemną). Obliczamy średnią czasową na wielu ramkach sceny statycznej, aby wyeliminować jak najwięcej szumów głębokości. Dokładniej mówiąc, systemowy błąd jest definiowany jako:

Błąd systematyczny głębokości

Gdzie dt oznacza głębokość miary w czasie t, N jest liczbą ramek używanych w procedurze średniej i dgt jest głębokość prawdy ziemi.

Systematyczne specyfikacje błędów aparatu głębokości wykluczają interferencję wielościeżkową (MPI). Interfejs MPI jest wtedy, gdy jeden piksel czujnika integruje światło odzwierciedlone przez więcej niż jeden obiekt. MpI jest częściowo złagodzony w naszej kamerze głębi przy użyciu wyższych częstotliwości modulacji, wraz z unieważnieniem głębokości, które wprowadzimy później.

Błąd losowy

Załóżmy, że zrobimy 100 obrazów tego samego obiektu bez przenoszenia aparatu. Głębokość obiektu będzie nieco różnić się w każdym z 100 obrazów. Ta różnica jest spowodowana hałasem strzału. Szum strzału to liczba fotonów uderzających w czujnik różni się w zależności od losowego współczynnika w czasie. Ten losowy błąd na scenie statycznej definiujemy jako odchylenie standardowe głębokości w czasie obliczone jako:

Błąd losowy głębokości

Gdzie N określa liczbę pomiarów głębokości, dt reprezentuje pomiar głębokości w czasie t i d oznacza wartość średnią obliczoną na wszystkich pomiarach głębokości dt.

Unieważnienie

W niektórych sytuacjach aparat głębokości może nie dostarczać poprawnych wartości dla niektórych pikseli. W takich sytuacjach piksele głębokości są unieważniane. Nieprawidłowe piksele są wskazywane przez wartość głębokości równą 0. Przyczyny, dla których aparat głębokości nie może wygenerować prawidłowych wartości, to:

  • Poza aktywną maską oświetlenia IR
  • Sygnał nasyconego środowiska IR
  • Sygnał niskiego środowiska IR
  • Odfiltruj odstający
  • Interferencja wielu ścieżek

Maska oświetlenia

Piksele są unieważniane, gdy znajdują się poza aktywną maską oświetlenia ŚRODOWISKA IR. Nie zalecamy używania sygnału takich pikseli do głębi obliczeń. Na poniższej ilustracji przedstawiono przykład unieważnienia przez maskę oświetlenia. Unieważnione piksele to piksele koloru czarnego poza okręgiem w szerokich trybach FoV (po lewej) i sześciokąt w wąskich trybach FoV (po prawej).

Unieważnianie maski oświetlenia zewnętrznego

Siła sygnału

Piksele są unieważniane, gdy zawierają nasycony sygnał IR. Gdy piksele są nasycone, informacje o fazie są tracone. Na poniższej ilustracji przedstawiono przykład unieważnienia przez nasycony sygnał IR. Zobacz strzałki wskazywane na przykładowe piksele zarówno w głębi, jak i na obrazach IR.

Nasycenie unieważnienia

Unieważnienie może również wystąpić, gdy sygnał IR nie jest wystarczająco silny, aby wygenerować głębokość. Na poniższej ilustracji przedstawiono przykład unieważnienia przez sygnał niskiego środowiska IR. Zobacz strzałki wskazywane na przykładowe piksele zarówno w głębi, jak i na obrazach IR.

Unieważnianie sygnału niskiego poziomu

Niejednoznaczna głębokość

Piksele można również unieważnić, jeśli odebrały sygnały z więcej niż jednego obiektu w scenie. Typowy przypadek, w którym można zobaczyć tego rodzaju unieważnienie, znajduje się w rogach. Ze względu na geometrię sceny światło IR z kamery odbiło się od jednej ściany i na drugą. To odbite światło powoduje niejednoznaczność w zmierzonej głębokości piksela. Filtry w algorytmie głębokości wykrywają te niejednoznaczne sygnały i unieważniają piksele.

Na poniższych ilustracjach przedstawiono przykłady unieważnienia przez wykrywanie wielu ścieżek. Można również zobaczyć, jak ten sam obszar powierzchni, który został unieważniony z jednego widoku aparatu (górny wiersz) może pojawić się ponownie z innego widoku aparatu (dolny wiersz). Ten obraz pokazuje, że powierzchnie unieważnione z jednej perspektywy mogą być widoczne z innej strony.

Unieważnianie wielościeżkowe — narożnik

Innym typowym przypadkiem wielościeżkowego są piksele, które zawierają mieszany sygnał z pierwszego planu i tła (na przykład wokół krawędzi obiektów). Podczas szybkiego ruchu mogą pojawić się bardziej unieważnione piksele wokół krawędzi. Dodatkowe unieważnione piksele są spowodowane interwałem ekspozycji nieprzetworzonego przechwytywania głębokości,

Unieważnianie wielościeżkowe — krawędzie

Następne kroki

Układy współrzędnych