Udostępnij przez


Buforowanie ROI

    ROIPooling (input,
                ROIs,
                {ROI output shape}, 
                spatialScale = {spatial scale wrt image (float)})

Operacja buforowania zwrotu z inwestycji oblicza nową macierz, wybierając wartość maksymalną (maksymalną pulę) w danych wejściowych puli dla każdego regionu zainteresowania (ROI). Regiony zainteresowania są podawane jako drugie dane wejściowe operatora jako lewy górny i dolny prawy róg regionów w pikselach bezwzględnych oryginalnego obrazu. Dane wejściowe buforowania są obliczane na każdy zwrot z inwestycji przez rzutowanie współrzędnych na mapę funkcji wejściowych (pierwsze dane wejściowe operatora) i biorąc pod uwagę wszystkie nakładające się pozycje. Projekcja używa skali przestrzennej, która jest współczynnikiem rozmiaru mapy funkcji wejściowych na rozmiar obrazu wejściowego. Skala przestrzenna może być obliczana przez pomnożenie wszystkich kroków występujących przed pulą zwrotu z inwestycji i odwrotnością, np. sieć, która ma cztery warstwy puli z dwoma krokami, będzie miała skalę przestrzenną 1/16. Szerokość i wysokość kształtu wyjściowego są określane przez trzeci argument, a głębokość danych wyjściowych (liczba filtrów) jest taka sama jak głębokość wejściowa.

  • input — buforowanie danych wejściowych dla całego obrazu
  • ROIs - Współrzędne zwrotu z inwestycji jako współrzędne bezwzględne pikseli (x_min, y_min, x_max, y_max)
  • {roi output shape} - wymiary (szerokość, wysokość) danych wyjściowych zwrotu z inwestycji, jako wektor BrainScript, np. (4:4).
  • spatialScale - skala operandu z oryginalnego rozmiaru obrazu. Wartość domyślna to 1/16, która jest zgodna na przykład z sieciami AlexNet i VGG16.

Uwaga

Zmieniono w CNTK wersji 2.1.

W CNTK 2.1 dodano parametr skalowania przestrzennego, a współrzędne zwrotu z inwestycji są teraz przekazywane jako wartości bezwzględne pikseli, a nie względne, jak w poprzednich wersjach.