Azure AI Video Indexer 출력 검토

Important

Azure Media Services 사용 중지 발표인해 Azure AI Video Indexer는 Azure AI Video Indexer 기능 조정을 발표합니다. AZURE AI Video Indexer 계정에 대한 의미를 이해하려면 AMS(Azure Media Service) 사용 중지와 관련된 변경 내용을 참조하세요. AMS 사용 중지 준비: VI 업데이트 및 마이그레이션 가이드를 참조하세요.

비디오가 인덱싱되는 경우 Azure AI Video Indexer는 지정된 비디오 인사이트에 대한 세부 정보가 포함된 JSON 콘텐츠를 생성합니다. 인사이트에는 음성 텍스트, OCR(광학 문자 인식) 요소, 얼굴, 토픽 및 유사한 세부 정보가 포함됩니다. 각 인사이트 형식에는 비디오에 인사이트를 표시하는 시간 범위 인스턴스가 포함됩니다.

자세한 내용은 Azure AI Video Indexer 인사이트를 참조하세요.

인사이트의 루트 요소

이름 설명
accountId 재생 목록의 VI 계정 ID입니다.
id 재생 목록의 ID입니다.
name 재생 목록의 이름입니다.
description 재생 목록의 설명입니다.
userName 재생 목록을 만든 사용자의 이름입니다.
created 재생 목록을 만든 시간입니다.
privacyMode 재생 목록의 프라이버시 모드입니다(Private 또는 Public).
state 재생 목록의 상태입니다(Uploaded, Processing, Processed, Failed 또는 Quarantined).
isOwned 현재 사용자가 재생 목록을 만들었는지 여부를 나타냅니다.
isEditable 현재 사용자에게 재생 목록을 편집할 수 있는 권한이 있는지 여부를 나타냅니다.
isBase 재생 목록이 기본 재생 목록(비디오)인지, 아니면 다른 비디오로 구성된 재생 목록(파생됨)인지를 나타냅니다.
durationInSeconds 재생 목록의 총 기간입니다.
summarizedInsights 생성된 JSON 출력에는 InsightsSummarizedInsights 요소가 포함됩니다. SummarizedInsights(이전 버전과의 호환성을 위해 있음)를 사용하지 않고 Insights를 사용하는 것이 좋습니다.
videos 재생 목록을 구성하는 비디오의 목록입니다.
이 재생 목록이 다른 비디오(파생됨)의 시간 범위로 구성된 경우 이 목록의 비디오에는 포함된 시간 범위의 데이터만 포함됩니다.
{
  ...
  "accountId": "00000000-0000-0000-0000-000000000000",
  "id": "abc3454321",
  "name": "My first video",
  "description": "I am trying VI",
  "userName": "Some name",
  "created": "2018/2/2 18:00:00.000",
  "privacyMode": "Private",
  "state": "Processed",
  "isOwned": true,
  "isEditable": false,
  "isBase": false,
  "durationInSeconds": 120, 
  "summarizedInsights" : null,
  "videos": [{ . . . }]
}

생성된 JSON 출력에는 InsightsSummarizedInsights 요소가 포함됩니다. SummarizedInsights(이전 버전과의 호환성을 위해 있음)를 사용하지 않고 Insights를 사용하는 것이 좋습니다.

인사이트 요약

이 섹션에서는 인사이트의 요약을 보여줍니다.

attribute 설명
name 비디오의 이름입니다. 예: Azure Monitor
id 비디오의 ID입니다. 예: 63c6d532ff
privacyMode 내역에는 다음 모드 중 하나가 있을 수 있습니다. Public 비디오는 계정의 모든 사용자와 비디오에 대한 링크가 있는 모든 사용자에게 표시됩니다. Private 비디오가 계정의 모든 사용자에게 표시됩니다.
duration 인사이트가 발생한 시간(초)입니다.
thumbnailVideoId 썸네일을 가져온 비디오의 ID입니다.
thumbnailId 비디오의 썸네일 ID입니다. 실제 썸네일을 가져오려면 Get-Thumbnail을 호출하고 thumbnailVideoIdthumbnailId를 전달합니다.
faces 0개 이상의 얼굴을 포함합니다. 자세한 내용은 얼굴을 참조하세요.
keywords 0개 이상의 키워드를 포함합니다. 자세한 내용은 키워드를 참조하세요.
sentiments 0개 이상의 감정을 포함합니다. 자세한 내용은 감정을 참조하세요.
audioEffects 0개 이상의 오디오 효과를 포함합니다. 자세한 내용은 audioEffects를 참조하세요.
labels 0개 이상의 레이블을 포함합니다. 자세한 내용은 레이블을 참조하세요.
brands 0개 이상의 브랜드를 포함합니다. 자세한 내용은 브랜드를 참조하세요.
statistics 자세한 내용은 statistics를 참조하세요.
emotions 0개 이상의 감정을 포함합니다. 자세한 내용은 감정을 참조하세요.
topics 0개 이상의 토픽을 포함합니다. 자세한 내용은 토픽을 참조하세요.

videos

이름 설명
accountId 비디오의 VI 계정 ID입니다.
id 비디오의 ID입니다.
name 비디오의 이름입니다.
state 비디오의 상태입니다(Uploaded, Processing, Processed, Failed 또는 Quarantined).
processingProgress 처리 진행률입니다. 예: 20%
failureCode 비디오가 처리에 실패한 경우의 오류 코드입니다. 예: UnsupportedFileType
failureMessage 비디오가 처리에 실패한 경우의 오류 메시지입니다.
externalId 비디오의 외부 ID입니다(사용자가 지정한 경우).
externalUrl 비디오의 외부 URL입니다(사용자가 지정한 경우).
metadata 비디오의 외부 메타데이터입니다(사용자가 지정한 경우).
isAdult 비디오가 수동으로 검토되고 성인 비디오로 식별되었는지 여부를 나타냅니다.
insights 인사이트 개체입니다. 자세한 내용은 insights를 참조하세요.
thumbnailId 비디오의 썸네일 ID입니다. 실제 썸네일을 가져오려면 Get-Thumbnail을 호출하고 비디오 ID 및 썸네일 ID를 전달합니다.
publishedUrl 비디오를 스트림하는 URL입니다.
publishedUrlProxy Apple 디바이스에서 비디오를 스트림하는 URL입니다.
viewToken 비디오를 스트림하기 위한 단기 보기 토큰입니다.
sourceLanguage 비디오의 소스 언어입니다.
language 비디오의 실제 언어입니다(변환).
indexingPreset 비디오를 인덱싱하는 데 사용되는 기본 설정입니다.
streamingPreset 비디오를 게시하는 데 사용되는 기본 설정입니다.
linguisticModelId 비디오를 기록하는 데 사용되는 CRIS(음성 텍스트 사용자 지정) 모델입니다.
statistics 자세한 내용은 statistics를 참조하세요.
{
    "videos": [{
        "accountId": "2cbbed36-1972-4506-9bc7-55367912df2d",
        "id": "142a356aa6",
        "state": "Processed",
        "privacyMode": "Private",
        "processingProgress": "100%",
        "failureCode": "General",
        "failureMessage": "",
        "externalId": null,
        "externalUrl": null,
        "metadata": null,
        "insights": {. . . },
        "thumbnailId": "89d7192c-1dab-4377-9872-473eac723845",
        "publishedUrl": "https://videvmediaservices.streaming.mediaservices.windows.net:443/d88a652d-334b-4a66-a294-3826402100cd/Xamarine.ism/manifest",
        "publishedProxyUrl": null,
        "viewToken": "Bearer=<token>",
        "sourceLanguage": "En-US",
        "language": "En-US",
        "indexingPreset": "Default",
        "linguisticModelId": "00000000-0000-0000-0000-000000000000"
    }],
}

인사이트

각 인사이트(예: 음성 텍스트 줄, 얼굴 또는 브랜드)에는 고유한 요소 목록(예: face1, face2, face3)이 포함됩니다. 각 요소에는 고유한 메타데이터와 해당 인스턴스 목록(추가 메타데이터가 있는 시간 범위)이 있습니다.

얼굴에는 ID, 이름, 썸네일, 다른 메타데이터 및 해당 임시 인스턴스의 목록이 있을 수 있습니다(예: 00:00:05 – 00:00:10, 00:01:00 - 00:02:3000:41:21 – 00:41:49). 각 임시 인스턴스에는 추가 메타데이터가 있을 수 있습니다. 예를 들어 메타데이터에는 얼굴의 사각형 좌표(20,230,60,60)가 포함될 수 있습니다.

버전 코드 버전
sourceLanguage BCP-47 문자열 형식의 비디오 소스 언어(하나의 마스터 언어로 가정)입니다.
language BCP-47 문자열 형식의 인사이트 언어(원본 언어에서 번역됨)입니다.
transcript transcript 인사이트.
ocr OCR 인사이트.
keywords keywords 인사이트.
transcripts 하나 이상의 음성 텍스트를 포함할 수 있습니다.
faces 얼굴 인사이트입니다.
labels labels 인사이트.
shots shots 인사이트.
brands brands 인사이트.
audioEffects audioEffects 인사이트.
sentiments sentiments 인사이트.
visualContentModeration visualContentModeration 인사이트.
textualContentModeration textualContentModeration 인사이트.
emotions emotions 인사이트.
topics topics 인사이트.
speakers speakers 인사이트.

예시:

{
  "version": "0.9.0.0",
  "sourceLanguage": "en-US",
  "language": "es-ES",
  "transcript": ...,
  "ocr": ...,
  "keywords": ...,
  "faces": ...,
  "labels": ...,
  "shots": ...,
  "brands": ...,
  "audioEffects": ...,
  "sentiments": ...,
  "visualContentModeration": ...,
  "textualContentModeration": ...
}

대본

이름 설명
id 줄 ID입니다.
text 자체 대본입니다.
confidence 음성 텍스트 정확도에 대한 신뢰도 수준입니다.
speakerId 화자의 ID입니다.
language 대본 언어입니다. 각 줄마다 다른 언어가 사용될 수 있는 대본을 지원하기 위한 요소입니다.
instances 이 줄이 나타나는 시간 범위 목록입니다. 인스턴스가 대본에 있으면 인스턴스는 하나만 있습니다.

예시:

"transcript":[
{
  "id":1,
  "text":"Well, good morning everyone and welcome to",
  "confidence":0.8839,
  "speakerId":1,
  "language":"en-US",
  "instances":[
     {
    "adjustedStart":"0:00:10.21",
    "adjustedEnd":"0:00:12.81",
    "start":"0:00:10.21",
    "end":"0:00:12.81"
     }
  ]
},
{
  "id":2,
  "text":"ignite 2016. Your mission at Microsoft is to empower every",
  "confidence":0.8944,
  "speakerId":2,
  "language":"en-US",
  "instances":[
     {
    "adjustedStart":"0:00:12.81",
    "adjustedEnd":"0:00:17.03",
    "start":"0:00:12.81",
    "end":"0:00:17.03"
     }
  ]
}

ocr

이름 설명
id OCR의 줄 ID입니다.
text OCR의 텍스트입니다.
confidence 인식 신뢰도입니다.
language OCR의 언어입니다.
instances 이 OCR이 나타난 시간 범위 목록입니다. (동일한 OCR이 여러 번 나타날 수 있습니다.)
height OCR 사각형의 높이입니다.
top 상단 위치입니다(픽셀 단위).
left 왼쪽 위치입니다(픽셀 단위).
width OCR 사각형의 너비입니다.
angle OCR 사각형의 각도입니다(-180~180). 0 값은 왼쪽에서 오른쪽의 가로 방향을 의미합니다. 90 값은 위쪽에서 아래쪽의 세로 방향을 의미합니다. 180 값은 오른쪽에서 왼쪽의 가로 방향을 의미합니다. -90 값은 아래쪽에서 위쪽의 세로 방향을 의미합니다. 30 값은 왼쪽 위에서 오른쪽 아래로 향하는 방향을 의미합니다.
"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 675.971,
      "height": 35,
      "language": "en-US",
      "left": 31,
      "top": 97,
      "width": 400,
      "angle": 30,
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    }
  ],

키워드

이름 설명
id 키워드 ID입니다.
text 키워드의 텍스트입니다.
confidence 키워드의 인식 신뢰도입니다.
language 키워드 언어(번역된 경우)입니다.
instances 이 키워드가 등장한 시간 범위의 목록입니다. (키워드는 여러 번 나타날 수 있습니다.)
{
    id: 0,
    text: "technology",
    confidence: 1,
    language: "en-US",
    instances: [{
            adjustedStart: "0:05:15.782",
            adjustedEnd: "0:05:16.249",
            start: "0:05:15.782",
            end: "0:05:16.249"
    },
    {
            adjustedStart: "0:04:54.761",
            adjustedEnd: "0:04:55.228",
            start: "0:04:54.761",
            end: "0:04:55.228"
    }]
}

얼굴

얼굴이 있는 경우 Azure AI Video Indexer는 모든 동영상 프레임에서 Face API를 사용하여 얼굴과 유명인을 검색합니다.

이름 설명
id 얼굴의 ID입니다.
name 얼굴의 이름입니다. Unknown #0, 식별된 유명인 또는 고객 교육을 받은 사용자일 수 있습니다.
confidence 얼굴 식별에 대한 신뢰도 수준입니다.
description 유명인에 대한 설명입니다.
thumbnailId 얼굴 썸네일의 ID입니다.
knownPersonId 알려진 사용자인 경우 내부 ID입니다.
referenceId Bing 유명인인 경우 Bing ID입니다.
referenceType 현재 Bing만 지원됩니다.
title 유명인 경우 해당 인물의 직함입니다. 예: Microsoft's CEO
imageUrl 유명인인 경우 이미지 URL입니다.
instances 시간 범위 내에서 얼굴이 나타난 인스턴스입니다. 인스턴스마다 thumbnailsIds 값도 있습니다.
"faces": [{
    "id": 2002,
    "name": "Xam 007",
    "confidence": 0.93844,
    "description": null,
    "thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
    "knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
    "referenceId": null,
    "title": null,
    "imageUrl": null,
    "instances": [{
        "thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
        "cef03f24-b0c7-4145-94d4-a84f81bb588c"],
        "adjustedStart": "00:00:07.2400000",
        "adjustedEnd": "00:00:45.6780000",
        "start": "00:00:07.2400000",
        "end": "00:00:45.6780000"
    },
    {
        "thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
        "adjustedStart": "00:10:23.9570000",
        "adjustedEnd": "00:10:39.2390000",
        "start": "00:10:23.9570000",
        "end": "00:10:39.2390000"
    }]
}]

레이블

이름 설명
id 레이블의 ID입니다.
name 레이블의 이름입니다. 예를 들어 Computer 또는 TV입니다.
language BCP-47 문자열 형식의 레이블 이름의 언어입니다(번역된 경우).
instances 이 레이블이 나타난 시간 범위의 목록입니다. (레이블은 여러 번 나타날 수 있습니다.) 각 인스턴스에는 신뢰도 필드가 있습니다.
"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ] 

장면

이름 설명
id 장면의 ID입니다.
instances 이 장면에 대한 시간 범위의 목록입니다. (장면에는 인스턴스가 하나만 있을 수 있습니다.)
"scenes":[  
    {  
      "id":0,
      "instances":[  
          {  
            "start":"0:00:00",
            "end":"0:00:06.34",
            "duration":"0:00:06.34"
          }
      ]
    },
    {  
      "id":1,
      "instances":[  
          {  
            "start":"0:00:06.34",
            "end":"0:00:47.047",
            "duration":"0:00:40.707"
          }
      ]
    },

]

이름 설명
id 샷의 ID입니다.
keyFrames 샷 내의 키 프레임 목록입니다. 각각에는 ID와 인스턴스 시간 범위 목록이 있습니다. 각 키 프레임 인스턴스에는 키 프레임의 썸네일 ID가 있는 thumbnailId 필드가 있습니다.
instances 이 샷에 대한 시간 범위의 목록입니다. (샷에는 인스턴스가 하나만 있을 수 있습니다.)
"shots":[  
    {  
      "id":0,
      "keyFrames":[  
          {  
            "id":0,
            "instances":[  
                {  
                  "thumbnailId":"00000000-0000-0000-0000-000000000000",
                  "start":"0:00:00.209",
                  "end":"0:00:00.251",
                  "duration":"0:00:00.042"
                }
            ]
          },
          {  
            "id":1,
            "instances":[  
                {  
                  "thumbnailId":"00000000-0000-0000-0000-000000000000",
                  "start":"0:00:04.755",
                  "end":"0:00:04.797",
                  "duration":"0:00:00.042"
                }
            ]
          }
      ],
      "instances":[  
          {  
            "start":"0:00:00",
            "end":"0:00:06.34",
            "duration":"0:00:06.34"
          }
      ]
    },

]

brands

Azure AI Video Indexer는 음성 텍스트 변환 대본 및/또는 비디오 OCR에서 비즈니스 및 제품 브랜드 이름을 검색합니다. 이 정보에는 브랜드의 시각적 인식이나 로고 감지가 포함되지 않습니다.

이름 설명
id 브랜드의 ID입니다.
name 브랜드 이름입니다.
referenceId 브랜드의 Wikipedia URL에 대한 접미사입니다. 예를 들어 Target_Corporationhttps://en.wikipedia.org/wiki/Target_Corporation의 접미사입니다.
referenceUrl 있는 경우 브랜드의 Wikipedia URL입니다. 예: https://en.wikipedia.org/wiki/Target_Corporation
description 브랜드 설명입니다.
tags 이 브랜드와 연결된 미리 정의된 태그의 목록입니다.
confidence Azure AI Video Indexer 브랜드 감지기의 신뢰도 값(0-1)입니다.
instances 이 브랜드에 대한 시간 범위의 목록입니다. 각 인스턴스에는 이 브랜드가 전사 또는 OCR에 표시되는지 여부를 나타내는 brandType 값이 있습니다.
"brands": [
{
    "id": 0,
    "name": "MicrosoftExcel",
    "referenceId": "Microsoft_Excel",
    "referenceUrl": "http: //en.wikipedia.org/wiki/Microsoft_Excel",
    "referenceType": "Wiki",
    "description": "Microsoft Excel is a sprea..",
    "tags": [],
    "confidence": 0.975,
    "instances": [
    {
        "brandType": "Transcript",
        "start": "00: 00: 31.3000000",
        "end": "00: 00: 39.0600000"
    }
    ]
},
{
    "id": 1,
    "name": "Microsoft",
    "referenceId": "Microsoft",
    "referenceUrl": "http: //en.wikipedia.org/wiki/Microsoft",
    "description": "Microsoft Corporation is...",
    "tags": [
    "competitors",
    "technology"
    ],
    "confidence": 1.0,
    "instances": [
    {
        "brandType": "Transcript",
        "start": "00: 01: 44",
        "end": "00: 01: 45.3670000"
    },
    {
        "brandType": "Ocr",
        "start": "00: 01: 54",
        "end": "00: 02: 45.3670000"
    }
    ]
}
]

statistics

이름 설명
CorrespondenceCount 비디오의 해당 항목 수입니다.
SpeakerWordCount 화자별 단어 수입니다.
SpeakerNumberOfFragments 비디오에서 화자가 있는 조각의 수입니다.
SpeakerLongestMonolog 화자의 가장 긴 단독 발언입니다. 단독 발언 내에 화자의 침묵이 있으면 포함됩니다. 단독 발언의 시작과 끝 부분에 있는 침묵은 제거됩니다.
SpeakerTalkToListenRatio 화자의 단독 발언에 소요된 시간(그 사이 침묵 제외)을 비디오의 총 시간으로 나눈 값을 기반으로 계산됩니다. 시간은 소수점 이하 세 자리에서 반올림됩니다.

audioEffects(미리 보기)

이름 설명
id 오디오 효과 ID입니다.
type 오디오 효과의 유형입니다.
name JSON이 인덱싱된 언어의 오디오 효과 유형입니다.
instances 이 오디오 효과가 나타나는 시간 범위 목록입니다. 인스턴스마다 신뢰도 필드가 있습니다.
start + end 원본 비디오의 시간 범위입니다.
adjustedStart + adjustedEnd 시간 범위 및 조정된 시간 범위.
audioEffects: [{
 {
        id: 0,
        type: "Laughter",
        name: "Laughter",
        instances: [{
                confidence: 0.8815,
                adjustedStart: "0:00:10.2",
                adjustedEnd: "0:00:11.2",
                start: "0:00:10.2",
                end: "0:00:11.2"
            }, {
                confidence: 0.8554,
                adjustedStart: "0:00:48.26",
                adjustedEnd: "0:00:49.56",
                start: "0:00:48.26",
                end: "0:00:49.56"
            }, {
                confidence: 0.8492,
                adjustedStart: "0:00:59.66",
                adjustedEnd: "0:01:00.66",
                start: "0:00:59.66",
                end: "0:01:00.66"
            }
        ]
    }
],

감정

감정은 해당 sentimentType 필드(Positive, Neutral 또는 Negative)를 기준으로 집계됩니다. 예: 0-0.1, 0.1-0.2.

이름 설명
id 감정 ID입니다.
averageScore 해당 감정 유형의 모든 인스턴스의 모든 점수 평균입니다.
instances 이 감정이 나타나는 시간 범위 목록입니다.
sentimentType 형식은 Positive, Neutral 또는 Negative일 수 있습니다.
"sentiments": [
{
    "id": 0,
    "averageScore": 0.87,
    "sentimentType": "Positive",
    "instances": [
    {
        "start": "00:00:23",
        "end": "00:00:41"
    }
    ]
}, {
    "id": 1,
    "averageScore": 0.11,
    "sentimentType": "Positive",
    "instances": [
    {
        "start": "00:00:13",
        "end": "00:00:21"
    }
    ]
}
]

visualContentModeration

visualContentModeration 대본에는 Azure AI Video Indexer가 성인 콘텐츠가 있을 가능성이 있다고 검색한 시간 범위가 포함됩니다. visualContentModeration이 비어 있으면 성인용 콘텐츠가 식별되지 않은 것입니다.

성인 또는 외설 콘텐츠가 포함된 비디오는 프라이빗 보기만 가능합니다. 사용자는 콘텐츠를 사람이 검토하도록 요청을 제출할 수 있습니다. 이 경우 IsAdult 특성에 사람이 검토한 결과가 포함됩니다.

이름 설명
id 시각 콘텐츠 조정 ID입니다.
adultScore 성인 점수입니다(콘텐츠 조정 기반).
racyScore 외설 점수(Content Moderator 기반)입니다.
instances 이 시각 콘텐츠 조정이 나타난 시간 범위 목록입니다.

visualContentModeration에 대해 자세히 알아보기

"visualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
] 

textualContentModeration

이름 설명
id 텍스트 콘텐츠 조정 ID입니다.
bannedWordsCount 금지된 단어의 수입니다.
bannedWordsRatio 총 단어 수 대비 금지된 단어의 비율입니다.
textualContentModeration에 대해 자세히 알아보기

emotions

Azure AI Video Indexer는 음성 및 오디오 신호에 따라 감정을 식별합니다.

이름 설명
id 감정 ID입니다.
type 식별된 감정의 유형입니다(Joy, Sadness, Anger 또는 Fear).
instances 이 감정이 나타난 시간 범위의 목록입니다.
"emotions": [{
    "id": 0,
    "type": "Fear",
    "instances": [{
      "adjustedStart": "0:00:39.47",
      "adjustedEnd": "0:00:45.56",
      "start": "0:00:39.47",
      "end": "0:00:45.56"
    },
    {
      "adjustedStart": "0:07:19.57",
      "adjustedEnd": "0:07:23.25",
      "start": "0:07:19.57",
      "end": "0:07:23.25"
    }]
  },
  {
    "id": 1,
    "type": "Anger",
    "instances": [{
      "adjustedStart": "0:03:55.99",
      "adjustedEnd": "0:04:05.06",
      "start": "0:03:55.99",
      "end": "0:04:05.06"
    },
    {
      "adjustedStart": "0:04:56.5",
      "adjustedEnd": "0:05:04.35",
      "start": "0:04:56.5",
      "end": "0:05:04.35"
    }]
  },
  {
    "id": 2,
    "type": "Joy",
    "instances": [{
      "adjustedStart": "0:12:23.68",
      "adjustedEnd": "0:12:34.76",
      "start": "0:12:23.68",
      "end": "0:12:34.76"
    },
    {
      "adjustedStart": "0:12:46.73",
      "adjustedEnd": "0:12:52.8",
      "start": "0:12:46.73",
      "end": "0:12:52.8"
    },
    {
      "adjustedStart": "0:30:11.29",
      "adjustedEnd": "0:30:16.43",
      "start": "0:30:11.29",
      "end": "0:30:16.43"
    },
    {
      "adjustedStart": "0:41:37.23",
      "adjustedEnd": "0:41:39.85",
      "start": "0:41:37.23",
      "end": "0:41:39.85"
    }]
  },
  {
    "id": 3,
    "type": "Sad",
    "instances": [{
      "adjustedStart": "0:13:38.67",
      "adjustedEnd": "0:13:41.3",
      "start": "0:13:38.67",
      "end": "0:13:41.3"
    },
    {
      "adjustedStart": "0:28:08.88",
      "adjustedEnd": "0:28:18.16",
      "start": "0:28:08.88",
      "end": "0:28:18.16"
    }]
  }
],

topics

Azure AI Video Indexer는 대본에서 주요 토픽을 추론합니다. 가능한 경우 IPTC 수준 2 분류가 포함됩니다.

이름 설명
id 토픽의 ID입니다.
name 토픽의 이름입니다. 예: Pharmaceuticals
referenceId 토픽의 계층 구조를 반영하는 이동 경로입니다. 예: HEALTH AND WELLBEING/MEDICINE AND HEALTHCARE/PHARMACEUTICALS
confidence 범위 0-1의 신뢰도 점수입니다. 점수가 높을수록 더 신뢰할 수 있습니다.
language 주제에 사용된 언어입니다.
iptcName IPTC 미디어 코드 이름입니다(검색된 경우).
instances 현재 Azure AI Video Indexer는 토픽을 시간 간격으로 인덱싱하지 않습니다. 전체 비디오가 간격으로 사용됩니다.
"topics": [{
    "id": 0,
    "name": "INTERNATIONAL RELATIONS",
    "referenceId": "POLITICS AND GOVERNMENT/FOREIGN POLICY/INTERNATIONAL RELATIONS",
    "referenceType": "VideoIndexer",
    "confidence": 1,
    "language": "en-US",
    "instances": [{
        "adjustedStart": "0:00:00",
        "adjustedEnd": "0:03:36.25",
        "start": "0:00:00",
        "end": "0:03:36.25"
    }]
}, {
    "id": 1,
    "name": "Politics and Government",
    "referenceType": "VideoIndexer",
    "iptcName": "Politics",
    "confidence": 0.9041,
    "language": "en-US",
    "instances": [{
        "adjustedStart": "0:00:00",
        "adjustedEnd": "0:03:36.25",
        "start": "0:00:00",
        "end": "0:03:36.25"
    }]
}]
. . .

speakers

이름 설명
id 화자 ID입니다.
name Speaker #<number> 형식의 화자 이름입니다. 예: Speaker #1
instances 이 화자가 등장한 시간 범위의 목록입니다.
"speakers":[
{
  "id":1,
  "name":"Speaker #1",
  "instances":[
     {
    "adjustedStart":"0:00:10.21",
    "adjustedEnd":"0:00:12.81",
    "start":"0:00:10.21",
    "end":"0:00:12.81"
     }
  ]
},
{
  "id":2,
  "name":"Speaker #2",
  "instances":[
     {
    "adjustedStart":"0:00:12.81",
    "adjustedEnd":"0:00:17.03",
    "start":"0:00:12.81",
    "end":"0:00:17.03"
     }
  ]
},