오디오 효과 검색 인사이트 가져오기

아티클
07/26/2024

Important

Azure Media Services 사용 중지로 인한 Azure Video Indexer 콘텐츠 마이그레이션 마감일이 지났습니다. 자세한 내용은 사용 중지 가이드를 참조하세요.

오디오 효과 감지

오디오 효과 감지는 음향 이벤트를 감지하고 웃음, 군중 반응, 경보 및/또는 사이렌과 같은 범주로 분류합니다.

오디오 효과 사용 사례

음성이 아닌 효과의 전사를 통해 청각 장애가 있는 대상에게 더 많은 컨텍스트를 제공하여 접근성을 개선합니다.
콘텐츠 작성자를 위한 원시 데이터를 만들 때 효율성을 향상합니다. 예를 들어 미디어 및 엔터테인먼트 분야에서 프로모션 및 예고편의 웃음, 군중 반응, 총소리 또는 폭발음과 같은 중요한 순간을 식별할 수 있습니다.
스마트 시티 시스템이나 카메라와 마이크를 포함하는 다른 공공 환경에서 총소리, 폭발 및 유리 산산조각을 감지하고 분류합니다.

지원되는 오디오 범주

오디오 효과 검색은 효과를 검색하고 표준 및 고급 범주로 분류할 수 있습니다. 자세한 내용은 가격 책정을 참조하세요.

다음 표에서는 사전 설정 이름(오디오 전용 / 비디오 + 오디오와 고급 오디오 / 고급 비디오 + 오디오)에 따라 지원되는 범주를 보여 줍니다. 고급 인덱싱을 사용하는 경우 웹 사이트의 인사이트 창에 범주가 표시됩니다.

클래스	표준 인덱싱	고급 인덱싱
군중 반응		✔️
침묵	✔️	✔️
총성 또는 폭발		✔️
깨진 유리		✔️
경보 또는 사이렌		✔️
웃음		✔️
개		✔️
벨 울림		✔️
새소리		✔️
자동차		✔️
엔진		✔️
울음		✔️
음악 재생		✔️
비명		✔️
뇌우		✔️

웹 포털을 사용하여 인사이트 JSON 보기

비디오를 업로드하고 인덱싱한 후에는 웹 포털을 사용하여 JSON 형식으로 인사이트를 다운로드할 수 있습니다.

라이브러리 탭을 선택합니다.
작업할 미디어를 선택합니다.
다운로드 및 인사이트(JSON)를 선택합니다. JSON 파일이 새 브라우저 탭에서 열립니다.
예제 응답에 설명된 키 쌍을 찾습니다.

API 사용

비디오 인덱스 가져오기 요청을 사용합니다. 을 전달하는 &includeSummarizedInsights=false것이 좋습니다.
예제 응답에 설명된 키 쌍을 찾습니다.

예제 응답

    "audioEffects": [
      {
        "id": 1,
        "type": "Silence",
        "instances": [
          {
            "confidence": 0,
            "adjustedStart": "0:01:46.243",
            "adjustedEnd": "0:01:50.434",
            "start": "0:01:46.243",
            "end": "0:01:50.434"
          }
        ]
      },
      {
        "id": 2,
        "type": "Speech",
        "instances": [
          {
            "confidence": 0,
            "adjustedStart": "0:00:00",
            "adjustedEnd": "0:01:43.06",
            "start": "0:00:00",
            "end": "0:01:43.06"
          }
        ]
      }
    ]

구성 요소

오디오 효과 감지 절차 중에 미디어 파일의 오디오는 다음과 같이 처리됩니다.

구성 요소	정의
원본 파일	사용자는 인덱싱을 위해 원본 파일을 업로드합니다.
세분화	오디오가 분석되고, 음성이 아닌 오디오가 식별된 다음, 짧은 겹치는 내부로 분할됩니다.
분류	AI 프로세스는 각 세그먼트를 분석하고 해당 콘텐츠를 군중 반응 또는 웃음과 같은 이벤트 범주로 분류합니다. 그런 다음, 부서별 규칙에 따라 각 이벤트 범주에 대해 확률 목록이 만들어집니다.
신뢰 수준	각 오디오 효과의 예상 신뢰 수준은 0에서 1 사이의 범위로 계산됩니다. 신뢰도 점수는 결과의 정확도에 대한 확실성을 나타냅니다. 예를 들어 82% 확실성은 0.82 점수로 표시됩니다.

투명성 메모

Important

모든 VI 기능에 대한 투명도 참고 개요를 읽는 것이 중요합니다. 각 인사이트에는 자체의 투명성 메모도 있습니다.

짧거나 낮은 품질의 오디오를 사용하지 않도록 오디오 효과 감지는 감지된 음성이 아닌 오디오 이벤트에 대한 확률적이고 부분적인 데이터를 제공합니다. 정확도를 위해 오디오 효과 감지에는 2초 이상의 명확한 음성이 아닌 오디오가 필요합니다. 음성 명령 또는 노래는 지원되지 않습니다.  
시끄러운 배경 음악 또는 반복 및/또는 선형으로 스캔된 주파수가 있는 음악이 포함된 오디오를 사용하지 마세요. 오디오 효과 감지는 음성이 아닌 오디오 전용으로 설계되었으므로 시끄러운 음악의 이벤트는 분류할 수 없습니다. 반복 및/또는 선형으로 스캔된 주파수가 있는 음악은 경보 또는 사이렌으로 잘못 분류될 수 있습니다.
법 집행 기관 및 유사한 기관의 사용 방법을 신중하게 고려하십시오. 보다 정확한 확률적 데이터를 승격하려면 다음을 확인합니다.
- 오디오 효과는 음성이 아닌 세그먼트에서만 감지될 수 있습니다.
- 음성이 아닌 섹션의 기간은 2초 이상이어야 합니다.
- 낮은 품질의 오디오는 검색 결과에 영향을 줄 수 있습니다.
- 시끄러운 배경 음악의 이벤트는 분류되지 않습니다.
- 반복 및/또는 선형으로 스캔된 주파수가 있는 음악은 경보 또는 사이렌으로 잘못 분류될 수 있습니다.
- 노크하는 소리나 문이 쾅 닫히는 소리는 총소리나 폭발음으로 표시될 수 있습니다.
- 계속되는 외침이나 사람의 육체적 움직임 소리는 잘못 분류될 수 있습니다.
- 많은 사람의 웃는 소리는 웃음과 군중 모두로 분류될 수 있습니다.
- 자연 및 인위적이지 않은 총소리 및 폭발음은 지원됩니다.

샘플 코드

VI에 대한 모든 샘플 보기

폐쇄 자막

선택 자막 파일의 오디오 효과는 대괄호로 표시됩니다.

Type	예시
SRT	00:00:00,000 00:00:03,671 [총성 또는 폭발]
VTT	00:00:00.000 00:00:03.671 [총성 또는 폭발]
TTML	신뢰도: 0.9047 `<p begin="00:00:00.000" end="00:00:03.671">[Gunshot or explosion]</p>`
TXT	[총성 또는 폭발]
CSV	0.9047,00:00:00.000,00:00:03.671, [총성 또는 폭발]

참고 항목

Silence 이벤트 유형은 선택 자막에 추가되지 않습니다.
이벤트를 표시하는 최소 타이머 기간은 700밀리초입니다.

선택 자막 파일에 오디오 효과 추가

API

비디오 캡션 가져오기 요청과 매개 변수에 대해 includeAudioEffects true를 선택하여 선택 자막 파일에 오디오 효과를 추가할 수 있습니다.