다음을 통해 공유


ROIPooling

    ROIPooling (input,
                ROIs,
                {ROI output shape}, 
                spatialScale = {spatial scale wrt image (float)})

ROI 풀링 작업은 각 ROI(관심 지역)에 대한 풀링 입력에서 최대(최대 풀링) 값을 선택하여 새 행렬을 계산합니다. 관심 영역은 원래 이미지의 절대 픽셀에서 영역의 왼쪽 위와 오른쪽 아래 모서리로 연산자에 대한 두 번째 입력으로 제공됩니다. 풀링 입력은 입력 기능 맵(연산자에 대한 첫 번째 입력)에 좌표를 프로젝션하고 겹치는 모든 위치를 고려하여 ROI별로 계산됩니다. 프로젝션은 입력 이미지 크기에 대한 입력 기능 맵의 크기 비율인 '공간 배율'을 사용합니다. ROI 풀링 전에 발생하는 모든 보폭을 곱하고 역방향(예: 보폭 2가 있는 4개의 풀링 계층이 있는 네트워크는 1/16의 공간 배율을 갖는 네트워크)을 사용하여 공간 배율을 계산할 수 있습니다. 출력 셰이프의 너비와 높이는 세 번째 인수에 의해 결정되며, 출력 깊이(필터 수)는 입력 깊이와 동일합니다.

  • input - 전체 이미지에 대한 풀링 입력
  • ROIs - 절대 픽셀 좌표로 ROI 좌표 (x_min, y_min, x_max, y_max)
  • {roi output shape}- ROI 출력의 차원(너비, 높이)(예: BrainScript 벡터)입니다. (4:4)
  • spatialScale - 원래 이미지 크기의 피연산자의 배율입니다. 기본값은 AlexNet 및 VGG16 네트워크와 같은 1/16입니다.

참고

CNTK 버전 2.1에서 변경되었습니다.

CNTK 2.1에서 공간 배율 매개 변수가 추가되었고 ROI의 좌표는 이제 이전 버전과 같이 상대 값이 아닌 절대 픽셀 값으로 전달됩니다.