관찰된 사람 감지 및 일치하는 얼굴 인사이트 가져오기

2025-06-10

중요

책임 있는 AI 원칙을 지원하기 위해 얼굴 식별, 사용자 지정 및 유명인 인식 기능 액세스는 자격 및 사용 기준에 따라 제한됩니다. 얼굴 식별, 사용자 지정 및 유명 인사 인식 기능은 Microsoft 관리 고객 및 파트너만 사용할 수 있습니다. 얼굴 인식 접수 양식을 사용하여 액세스를 적용합니다.

관찰된 사람 감지 및 일치하는 얼굴은 미디어 파일에서 자동으로 사람을 감지하고 일치합니다. 관찰된 사람 감지 및 일치하는 얼굴을 보여 주도록 설정하여 사람, 의류 및 등장 시간에 대한 인사이트를 제공할 수 있습니다.

웹 포털에서 결과 인사이트는 인사이트 탭의 분류된 목록에 표시됩니다. 탭에는 각 사용자의 썸네일과 해당 ID가 포함됩니다. 사람의 썸네일을 클릭하면 일치하는 사람(사람 인사이트의 해당 얼굴)이 표시됩니다. 인사이트는 JSON 파일의 분류된 목록에도 생성됩니다. 파일에는 사용자의 썸네일 ID, 파일에 표시되는 시간 백분율, Wiki 링크(유명인인 경우) 및 신뢰도 수준이 포함됩니다.

관찰된 사람 감지, 감지된 의류 및 일치하는 얼굴 사용 사례

예를 들어, 프로모션 및 예고편을 만들 때 특정 유명인에 대한 인사이트를 얻기 위해 조직 보관에서 일치하는 사람들을 심층 검색하여 효율성을 개선시킵니다.
뉴스 또는 스포츠 에이전시의 축구 경기 기록 보관소에서 빨간 셔츠를 입은 사람을 검색하는 등 특집 기사를 만들 때 효율성이 개선되었습니다.
감지된 동일 인물의 ID를 사용하여 비디오에서 특정인의 모습에 대한 법정 증거와 같은 긴 비디오의 요약본을 만듭니다.
고객이 쇼핑가에서 통로를 이동하는 방법 또는 결제 대기줄에서 소비하는 시간과 같은 시간별 추세를 알아보고 분석합니다.

일치하는 얼굴 및 감지된 의류 기능은 고급 ->비디오 + 오디오 인덱싱 사전 설정을 선택하여 파일을 인덱싱할 때 사용할 수 있습니다.

웹 포털을 사용하여 인사이트 JSON 보기

비디오를 업로드하고 인덱싱한 후 웹 포털에서 JSON 형식으로 인사이트를 다운로드합니다.

라이브러리 탭을 선택합니다.
원하는 미디어를 선택합니다.
다운로드를 선택한 다음, 인사이트(JSON)를 선택합니다. JSON 파일이 새 브라우저 탭에서 열립니다.
예제 응답에 설명된 키 쌍을 찾습니다.

API 사용

비디오 인덱스 가져오기 요청을 사용합니다. &includeSummarizedInsights=false항목을 전달합니다.
예제 응답에 설명된 키 쌍을 찾습니다.

예제 응답

"observedPeople": [
    {
        "id": 1,
        "thumbnailId": "d09ad62e-e0a4-42e5-8ca9-9a640c686596",
        "clothing": [
            {
                "id": 1,
                "type": "sleeve",
                "properties": {
                    "length": "short"
                }
            },
            {
                "id": 2,
                "type": "pants",
                "properties": {
                    "length": "short"
                }
            }
        ],
        "matchingFace": {
            "id": 1310,
            "confidence": 0.3819
        },
        "instances": [
            {
                "adjustedStart": "0:00:34.8681666",
                "adjustedEnd": "0:00:36.0026333",
                "start": "0:00:34.8681666",
                "end": "0:00:36.0026333"
            },
            {
                "adjustedStart": "0:00:36.6699666",
                "adjustedEnd": "0:00:36.7367",
                "start": "0:00:36.6699666",
                "end": "0:00:36.7367"
            },
            {
                "adjustedStart": "0:00:37.2038333",
                "adjustedEnd": "0:00:39.6729666",
                "start": "0:00:37.2038333",
                "end": "0:00:39.6729666"
            }
        ]
    }
]

중요

모든 VI 기능에 대한 투명도 참고 개요 를 읽어보세요. 각 인사이트에는 각자의 투명성 설명이 있습니다.

관찰된 사람들 감지 및 일치하는 얼굴 기록

일반적으로는 작게 표시되는 사람은 감지되지 않습니다(최소 사람 높이는 100픽셀).
최대 프레임 크기는 FHD(전체 고화질)입니다.
낮은 품질의 비디오(예: 어두운 조명 조건)는 검색 결과에 영향을 줄 수 있습니다.
권장 프레임 속도는 최소 30FPS입니다.
권장 비디오 입력은 단일 프레임에 최대 10명의 사람을 포함해야 합니다. 이 기능은 단일 프레임에서 더 많은 사람을 감지할 수 있지만 한 프레임에서 최대 10명의 사람을 검색한 감지 결과의 신뢰도가 가장 높습니다.
비슷한 옷을 입은 사람: (예: 유니폼을 입은 사람, 스포츠 경기의 선수) 동일한 ID 번호를 가진 동일한 사람으로 감지될 수 있습니다.
방해 – 장애물이 존재하는 경우(장면 자체 또는 다른 사람에 의한 방해) 오류가 발생할 수 있습니다.
포즈: 다른 포즈(후면/앞)로 인해 트랙이 분할될 수 있습니다.
의류 감지는 사람 신체의 가시성에 따라 달라지므로 사람이 완전히 보이면 정확도가 더 높습니다. 사람이 옷을 입고 없을 때 오류가 있을 수 있습니다. 이 시나리오 또는 가시성이 좋지 않는 다른 시나리오에서는 긴 바지, 스커트 또는 드레스와 같은 결과가 제공될 수 있습니다.

탐지된 인물 감지 및 일치하는 얼굴 구성 요소

구성 요소	정의
원본 파일	사용자는 인덱싱을 위해 원본 파일을 업로드합니다.
감지	관찰된 사람과 해당 옷을 검색하기 위해 미디어 파일을 추적합니다. 예를 들어, 긴 소매 셔츠, 드레스 또는 긴 바지. 감지하려면 사람의 전체 상반신이 미디어에 표시되어야 합니다.
로컬 그룹화	식별된 관찰된 얼굴은 로컬 그룹으로 필터링됩니다. 사람이 두 번 이상 감지되면 이 사람에 대해 관찰된 얼굴 인스턴스가 더 많이 만들어집니다.
일치 및 분류	관찰된 사람 인스턴스는 얼굴과 일치합니다. 알려진 유명 인사가 있는 경우 관찰된 사람에게는 이름이 지정됩니다. 관찰된 사람 인스턴스는 얼마든지 동일한 얼굴에 일치시킬 수 있습니다.
신뢰도 가치	관찰된 각 사람의 예상 신뢰 수준은 0에서 1 사이의 범위로 계산됩니다. 신뢰도 점수는 결과의 정확도에 대한 확실성을 나타냅니다. 예를 들어 82% 확실성은 0.82 점수로 표시됩니다.

샘플 코드

VI에 대한 모든 샘플 보기

Azure AI Video Indexer 설명서