Azure AI Video Indexer 개요

2025-06-03

Azure AI Video Indexer 는 Azure AI 서비스(예: Face, Translator, Azure AI Vision 및 Speech)를 기반으로 하는 Azure AI 서비스의 일부인 클라우드 애플리케이션입니다. 이 애플리케이션을 사용하면 Azure AI Video Indexer 비디오 및 오디오 모델을 사용하여 비디오에서 인사이트를 추출할 수 있습니다.

Azure AI Video Indexer는 AI 모델을 30개 이상 실행하여 비디오 및 오디오 콘텐츠를 분석하여 풍부한 인사이트를 생성합니다. 다음은 백그라운드에서 Azure AI Video Indexer가 수행한 오디오 및 비디오 분석의 그림입니다.

Azure AI Video Indexer를 사용하여 인사이트 추출을 시작하려면 섹션을 시작하는 방법을 참조하세요.

Azure AI Video Indexer를 사용하여 무엇을 수행할 수 있나요?

Azure AI Video Indexer의 인사이트는 다음과 같은 여러 시나리오에 적용할 수 있습니다.

심층 검색: 비디오 라이브러리에서 검색 환경을 향상하려면 비디오에서 추출한 인사이트를 사용합니다. 예를 들어 음성 단어와 얼굴을 인덱싱하면 비디오에서 사람이 특정 단어를 말했거나 두 사람이 함께 본 시점을 찾는 검색 환경을 사용할 수 있습니다. 비디오에서 이 인사이트에 기반한 검색은 뉴스 기관, 교육 기관, 방송사, 엔터테인먼트 콘텐츠 소유자, 엔터프라이즈 LOB 앱 및 일반적으로 사용자가 검색해야 하는 비디오 라이브러리가 있는 모든 산업에 적용됩니다.
콘텐츠 만들기: Azure AI Video Indexer가 콘텐츠에서 추출한 인사이트를 기반으로 하여 트레일러, 하이라이트 릴, 소셜 미디어 콘텐츠, 또는 뉴스 클립을 만듭니다. 사람과 레이블의 등장과 관련된 키 프레임, 장면 표시기 및 타임스탬프는 제작 과정을 훨씬 더 원활하고 쉽게 만들어, 콘텐츠를 제작할 때 원하는 비디오 부분에 손쉽게 접근할 수 있게 해줍니다.
접근성: 장애가 있는 사람이 콘텐츠를 사용할 수 있게 하거나 다양한 언어를 사용하여 콘텐츠를 여러 지역에 배포하려는 경우 Azure AI Video Indexer에서 제공하는 음성 텍스트와 번역을 여러 언어로 사용할 수 있습니다.
수익 창출: Azure AI Video Indexer는 비디오의 가치를 높이는 데 도움이 될 수 있습니다. 예를 들어 광고 수익(뉴스 미디어, 소셜 미디어 등)에 의존하는 산업은 추출된 인사이트를 광고 서버에 대한 추가 신호로 사용하여 관련 광고를 전달할 수 있습니다.
콘텐츠 조정: 텍스트 및 시각적 콘텐츠 조정 모델을 사용하여 부적절한 콘텐츠로부터 사용자를 보호하고 게시한 콘텐츠가 조직 가치에 부합하는지 검증합니다. 자동으로 특정 비디오를 차단하거나 사용자에게 콘텐츠에 관해 경고할 수 있습니다.
추천: 사용자에게 관련 비디오 시점을 강조하여 사용자 참여를 향상시키는 데 비디오 인사이트를 사용할 수 있습니다. 각 비디오에 더 많은 메타데이터로 태그를 지정하면 사용자에게 가장 관련성이 큰 비디오를 추천하고 요구 사항에 맞는 비디오 부분을 강조 표시할 수 있습니다.

비디오/오디오 AI 기능

다음 목록에서는 Azure AI Video Indexer 비디오 및 오디오 AI 기능(모델)을 사용하여 비디오/오디오 파일에서 검색할 수 있는 인사이트를 보여줍니다.

참고

개인 정보 보호 및 규정 요구 사항이 지정된 경우 이러한 기능 중 일부는 사용을 제한하고/또는 완전히 활용하려면 권한 부여가 필요합니다.

달리 지정하지 않으면 일반적으로 모델을 사용할 수 있습니다.

비디오 모델

얼굴 감지: 비디오에 나타나는 얼굴을 감지하고 그룹화합니다.
유명인 식별: 전 세계 리더, 배우, 예술가, 운동 선수, 연구원, 비즈니스 및 기술 리더와 같은 100만 명 이상의 유명인을 식별합니다. 이와 같은 유명인에 관한 데이터는 다양한 웹 사이트(IMDB, Wikipedia 등)에서도 찾아볼 수 있습니다.
계정 기반 얼굴 식별: 특정 계정에 대한 모델을 학습합니다. 그런 다음, 학습된 모델을 기반으로 비디오에서 얼굴을 인식합니다. 자세한 내용은 Azure AI Video Indexer 웹사이트에서 개인 모델을 사용자 지정하기와 Azure AI Video Indexer API를 통해 개인 모델 사용자 지정하기를 참조하세요.
얼굴에 대한 썸네일 추출: 각 얼굴 그룹(품질, 크기 및 정면 위치에 따라)에서 캡처된 최상의 얼굴을 식별하고 이미지 자산으로 추출합니다.
OCR(광학 문자 인식) : 미디어 파일의 그림, 도로 표지판 및 제품과 같은 이미지에서 텍스트를 추출하여 인사이트를 만듭니다.
시각적 콘텐츠 검열: 성인 및/또는 외설적인 시각적 자료를 감지합니다.
레이블 식별: 표시되는 시각적 개체 및 작업을 식별합니다.
장면 구분: 시각적 신호에 따라 비디오에서 장면이 변경되는 시기를 결정합니다. 장면은 단일 이벤트를 묘사하며 의미 체계와 관련된 연속된 일련의 샷으로 구성됩니다.
샷 감지: 시각적 신호에 따라 비디오에서 샷이 변경되는 시기를 결정합니다. 샷은 동일한 영화 카메라에서 찍은 일련의 프레임입니다. 자세한 내용은 장면, 샷 및 키 프레임을 참조하세요.
검은색 프레임 감지: 비디오에 표시되는 검은색 프레임을 식별합니다.
키 프레임 추출: 비디오에서 안정적인 키 프레임을 검색합니다.
롤링 크레딧: TV 프로그램과 영화의 끝부분에서 롤링 크레딧의 시작과 끝을 식별합니다.
에디토리얼 샷 유형 감지: 해당 유형(예: 와이드 샷, 중형 샷, 클로즈업, 극단적인 클로즈업, 2샷, 여러 사람, 실외 및 실내 등)에 따라 샷 태그를 지정합니다. 자세한 내용은 편집 샷 유형 검색을 참조하세요.
관찰된 사람 감지: 비디오에서 관찰된 사람을 감지하고 비디오 프레임에서 사용자의 위치(경계 상자 사용) 및 사람이 나타날 때 정확한 타임스탬프(시작, 끝) 및 신뢰도와 같은 정보를 제공합니다. 자세한 내용은 동영상에서 관찰된 사람 추적을 참조하세요.
- 일치하는 사람: 비디오에서 관찰된 사람과 해당 얼굴이 감지된 사람과 일치합니다. 관찰된 사람과 얼굴 간의 일치는 신뢰도 수준을 포함합니다.
- 검색된 의류: 비디오에 나타나는 사람들의 의류 유형을 감지하고 긴 소매 또는 반소매, 긴 바지 또는 짧은 바지, 스커트 또는 드레스와 같은 정보를 제공합니다. 감지된 의류는 입고 있는 사람과 연결되며, 감지에 대한 신뢰도 수준과 함께 정확한 타임스탬프(시작, 끝)가 제공됩니다.
- 추천 의류: 비디오에 나타나는 주요 의류 이미지를 캡처합니다. 추천 의류 인사이트를 사용하여 타겟 광고를 향상시킬 수 있습니다. 추천 의류 이미지의 순위를 매기는 방법과 인사이트를 얻는 방법에 대한 자세한 내용은 추천 의류를 참조하세요.
개체 검색 또한 추적되는 고유 개체를 검색하여 프레임으로 돌아가면 인식됩니다. Azure AI Video Indexer 개체 검색 참조
슬레이트 감지: 고급 인덱싱 옵션을 사용하여 비디오를 인덱싱할 때 다음 영화 프로덕션 후 인사이트를 식별합니다.
- 메타데이터를 추출하여 클래퍼보드를 감지하기.
- 색 막대를 포함한 디지털 패턴 검색
- 장면 매칭을 포함한 텍스트 없는 슬레이트 탐지
자세한 내용은 슬레이트 검색을 참조하세요.
텍스트 로고 검색: Azure AI Video Indexer OCR을 사용하여 미리 정의된 특정 텍스트와 일치합니다. 예를 들어, 사용자가 텍스트 로고 Microsoft를 만든 경우, 단어 Microsoft의 다양한 형태가 Microsoft 로고로 감지됩니다. 자세한 내용은 텍스트 로고 검색을 참조하세요.

오디오 모델

오디오 전사: 음성을 50개 이상의 언어로 변환하고 확장을 허용합니다. 자세한 내용은 Azure AI Video Indexer 언어 지원을 참조하세요.
자동 언어 감지: 기본 음성 언어를 식별합니다. 자세한 내용은 Azure AI Video Indexer 언어 지원을 참조하세요. 언어를 확실하게 식별할 수 없으면 Azure AI Video Indexer에서는 음성 언어가 영어라고 가정합니다.
다중 언어 음성 식별 및 전사: 오디오와 다른 세그먼트에서 음성 언어를 식별합니다. 미디어 파일의 각 세그먼트를 전사하기 위해 전송한 다음 전사를 다시 하나의 통합 전사로 결합합니다. 전사에 대한 자세한 내용은 전사를 참조하세요.
선택 자막: VTT, TTML, SRT의 세 가지 형식으로 선택 자막을 만듭니다.
두 채널 처리: 자동은 별도의 대본을 검색하고 단일 타임라인에 병합합니다.
노이즈 감소: 전화 통신 오디오 또는 시끄러운 녹음을 지웁니다(Skype 필터 기반).
CRIS(대본 사용자 지정): 사용자 지정 음성을 텍스트로 변환하는 모델을 학습하여 업계별 대본을 만듭니다. 자세한 내용은 언어 모델 사용자 지정을 참조하세요.
화자 열거형: 어떤 화자가 어떤 단어와 시기를 말하는지 매핑하고 이해합니다. 단일 오디오 파일에서 16명의 화자를 감지할 수 있습니다.
화자 통계: 화자 음성 비율에 대한 통계를 제공합니다.
텍스트 콘텐츠 조정: 오디오 대본에서 명시적 텍스트를 검색합니다.
텍스트 기반 감정 감지: 대본 분석을 통해 감지된 기쁨, 슬픔, 분노 및 두려움과 같은 감정.
번역: 오디오 대본의 번역을 다양한 언어로 만듭니다. 자세한 내용은 Azure AI Video Indexer 언어 지원을 참조하세요.
오디오 효과 감지: 알람 또는 사이렌, 개 짖는 소리, 군중 반응(환호, 박수, 야유), 총소리 또는 폭발, 웃음, 깨진 유리, 침묵 등 콘텐츠의 비스피치 세그먼트에서 다음 오디오 효과를 감지합니다.

감지된 음향 이벤트는 자막 파일에 있습니다. Azure AI Video Indexer 웹 사이트에서 파일을 다운로드할 수 있습니다. 자세한 내용은 오디오 효과 검색을 참조하세요.

참고

전체 이벤트 집합은 업로드 사전 설정에서 파일을 업로드할 때 고급 오디오 분석을 선택하는 경우에만 사용할 수 있습니다. 기본적으로 무음만 감지됩니다.

오디오 및 비디오 모델(다중 채널)

한 채널로 인덱싱하면 해당 모델에 대한 부분 결과를 사용할 수 있습니다.

키워드 추출: 음성 및 시각적 텍스트에서 키워드를 추출합니다.
명명된 엔터티 추출: NLP(자연어 처리)를 통해 음성 및 시각적 텍스트에서 브랜드, 위치 및 사람을 추출합니다.
주제 유추: 다양한 키워드(즉, '증권거래소' 키워드, '월가'가 주제 '경제'를 생성함)를 기반으로 토픽을 추출합니다. 이 모델은 세 가지 온톨로지(IPTC, Wikipedia 및 Video Indexer 계층 구조 토픽 온톨로지)를 사용합니다. 모델은 전사(음성 단어), OCR 콘텐츠(시각적 텍스트), 그리고 Video Indexer 얼굴 인식 모델을 사용하여 비디오에서 인식된 유명인을 활용합니다.
아티팩트: 각 모델에 대해 풍부한 "다음 수준의 세부 정보" 아티팩트 집합을 추출합니다.
감정 분석: 음성 및 시각적 텍스트에서 긍정, 부정 및 중립 감정을 식별합니다.

Azure AI Video Indexer를 시작하려면 어떻게 해야 하나요?

Azure AI Video Indexer를 시작하는 방법을 알아봅니다.

설정한 후에는 인사이트 사용을 시작하고 다른 방법 가이드를 확인하세요.

준수, 개인정보 보호, 보안

참고

2020년 6월 11일, Microsoft는 인권에 근거한 강력한 규제가 시행될 때까지 미국 경찰청에 얼굴 인식 기술을 판매하지 않을 것이라고 발표했습니다. 따라서 고객이 미국의 경찰서이거나 경찰서가 이러한 서비스를 사용하도록 허용하는 경우, 고객은 얼굴 인식 기능 또는 Azure AI 서비스에 포함된 기능(예: Face 또는 Video Indexer)을 사용할 수 없습니다.

참고

책임 있는 AI 원칙을 지원하기 위해 얼굴 식별, 사용자 지정 및 유명인 인식 기능 액세스는 자격 및 사용 기준에 따라 제한됩니다. 얼굴 식별, 사용자 지정 및 유명 인사 인식 기능은 Microsoft 관리 고객 및 파트너만 사용할 수 있습니다. 얼굴 인식 섭취 양식을 사용하여 액세스를 신청합니다.

Azure AI Video Indexer 사용 시 적용 가능한 모든 법률을 준수해야 하며, 다른 사람의 권리를 침해하거나 다른 사람에게 해로울 수 있는 방식으로 Azure AI Video Indexer 또는 Azure 서비스를 사용할 수 없습니다.

비디오/이미지를 Azure AI Video Indexer에 업로드하기 전에 Azure AI Video Indexer 및 Azure에서 데이터의 사용, 처리 및 저장을 위해 법률에 따라 필요한 경우 비디오/이미지의 개인(있는 경우)의 모든 필요한 동의를 포함하여 비디오/이미지를 사용할 수 있는 모든 적절하고 법적 권한이 있어야 합니다. 일부 관할권에서는 생체 인식 데이터와 같은 특정 범주의 데이터 수집, 온라인 처리 및 스토리지에 대한 특별한 법적 요구 사항을 부과할 수 있습니다. 특별한 법적 요구 사항이 적용되는 모든 데이터의 처리 및 스토리지에 Azure AI Video Indexer 및 Azure를 사용하기 전에 사용이 귀하와 의도한 용도에 적용될 수 있는 모든 법적 요구 사항을 준수하는지 확인해야 합니다.

Azure AI Video Indexer의 규정 준수, 개인 정보 보호 및 보안에 대해 알아보려면 Microsoft 보안 센터를 방문하세요. Microsoft의 개인 정보 보호 의무, 데이터 처리 및 보존 방법(데이터 삭제 방법 포함), Microsoft의 개인정보처리방침, 온라인 서비스 약관 ("OST") 및 데이터 처리 부록 ("DPA")을 검토합니다. Azure AI Video Indexer를 사용하면 OST, DPA 및 개인정보처리방침에 구속되는 것에 동의합니다.