미디어 전사, 번역 및 언어 식별 인사이트 가져오기

아티클
09/03/2024

미디어 전사, 번역 및 언어 식별

전사, 번역 및 언어 식별은 미디어 파일의 음성을 감지, 전사 및 번역하여 50개 이상의 언어로 변환합니다.

Azure AI VI(Video Indexer)는 오디오 파일의 음성을 처리하여 여러 언어로 번역되는 전사를 추출합니다. 특정 언어로 번역하도록 선택할 때 키워드, 토픽, 레이블 또는 OCR과 같은 전사와 인사이트가 모두 지정된 언어로 번역됩니다. 전사는 그대로 사용하거나 대본을 스피커에 매핑하고 할당하는 발화자 인사이트와 결합할 수 있습니다. 오디오 파일에서 여러 스피커를 검색할 수 있습니다. ID는 각 스피커에 할당되며 전사된 음성 아래에 표시됩니다.

LID(언어 식별) 는 비디오 파일에서 지원되는 주요 음성 언어를 인식합니다. 자세한 내용은 LID 적용을 참조하십시오.

MLID(다중 언어 식별) 는 오디오 파일의 여러 세그먼트에서 음성 언어를 자동으로 인식하고 식별된 언어로 전사할 각 세그먼트를 보냅니다. 이 프로세스가 끝나면 모든 전사가 동일한 파일로 결합됩니다. 자세한 내용은 MLID 적용을 참조하십시오. 결과 인사이트는 ID, 언어, 전사된 텍스트, 기간 및 신뢰도 점수를 포함하는 JSON 파일의 분류된 목록에서 생성됩니다.

여러 스피커를 사용하여 미디어 파일을 인덱싱할 때 Azure AI Video Indexer는 비디오의 각 스피커를 식별하고 각 전사된 줄을 스피커에 특성화하는 화자 다이어리화를 수행합니다. 스피커에는 Speaker #1 및 Speaker #2와 같은 고유한 ID가 제공됩니다. 이렇게 하면 대화 중에 화자를 식별할 수 있으며 의사-환자 대화, 에이전트-고객 상호 작용 및 법원 절차와 같은 다양한 시나리오에서 유용할 수 있습니다.

미디어 전사, 번역 및 언어 식별 사용 사례

음성을 텍스트로 변환하고 여러 언어로 번역하는 Azure AI Video Indexer를 사용하여 청각 장애가 있는 사용자가 콘텐츠를 사용할 수 있도록 하여 접근성을 촉진합니다.
Azure AI Video Indexer의 전사 및 번역 기능을 사용해 여러 언어로 콘텐츠를 제공하여 다양한 지역 및 언어의 다양한 대상에게 콘텐츠 배포를 개선합니다.
Azure AI Video Indexer의 전사 및 번역 기능을 사용하고 Azure AI Video Indexer에서 생성된 선택 자막을 지원되는 형식 중 하나로 사용하여 수동 선택 자막 및 자막 생성을 향상시키고 개선합니다.
LID(언어 식별) 또는 MLID(다중 언어 식별)를 사용하여 알 수 없는 언어로 비디오를 전사하여 Azure AI Video Indexer가 비디오에 표시되는 언어를 자동으로 식별하고 그에 따라 전사를 생성할 수 있도록 합니다.

웹 포털을 사용하여 인사이트 JSON 보기

비디오를 업로드하고 인덱싱한 후에는 웹 포털을 사용하여 JSON 형식으로 인사이트를 다운로드할 수 있습니다.

라이브러리 탭을 선택합니다.
작업할 미디어를 선택합니다.
다운로드 및 인사이트(JSON)를 선택합니다. JSON 파일이 새 브라우저 탭에서 열립니다.
예제 응답에 설명된 키 쌍을 찾습니다.

API 사용

비디오 인덱스 가져오기 요청을 사용합니다. 을 전달하는 &includeSummarizedInsights=false것이 좋습니다.
예제 응답에 설명된 키 쌍을 찾습니다.

예제 응답

비디오에서 감지된 모든 언어는 sourceLanauge 아래에 있으며 전사 sectin의 각 인스턴스에는 trascribed 언어가 포함됩니다.

    "insights": {
      "version": "1.0.0.0",
      "duration": "0:01:50.486",
      "sourceLanguage": "en-US",
      "sourceLanguages": [
        "es-ES",
        "en-US"
      ],
      "language": "en-US",
      "languages": [
        "en-US"
      ],
      "transcript": [
        {
          "id": 1,
          "text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:00",
              "adjustedEnd": "0:00:05.75",
              "start": "0:00:00",
              "end": "0:00:05.75"
            }
          ]
        },
        {
          "id": 2,
          "text": "Emily Tran, with office graphics.",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:05.75",
              "adjustedEnd": "0:00:07.01",
              "start": "0:00:05.75",
              "end": "0:00:07.01"
            }
          ]
        },

Important

모든 VI 기능에 대한 투명도 참고 개요를 읽는 것이 중요합니다. 각 인사이트에는 자체의 투명성 메모도 있습니다.

전사, 번역 및 언어 식별 메모

책임감 있고 신중하게 사용하는 경우 Azure AI Video Indexer는 많은 업계에서 유용한 도구입니다. 귀하는 항상 다른 사람의 개인 정보 보호와 안전을 존중하고 현지 및 글로벌 규정을 준수해야 합니다. 다음이 권장됩니다.

결과의 정확도를 신중하게 고려하고, 보다 정확한 데이터를 승격하고, 오디오의 품질을 확인하고, 낮은 품질의 오디오가 감지된 인사이트에 영향을 줄 수 있습니다.
Video Indexer는 화자 인식을 수행하지 않으므로 여러 파일에 식별자가 할당되지 않습니다. 여러 파일 또는 대본에서 개별 화자를 검색할 수 없습니다.
화자 식별자는 임의로 할당되며 단일 파일에서 다른 화자를 구분하는 데만 사용할 수 있습니다.
크로스 토크 및 겹치는 음성: 여러 화자가 동시에 대화하거나 서로 방해되는 경우 모델이 올바른 텍스트를 정확하게 구분하여 해당 화자에게 할당하기가 어려워집니다.
스피커 겹침: 경우에 따라 화자가 비슷한 음성 패턴, 악센트를 사용하거나 비슷한 어휘를 사용하여 모델을 구분하기가 어려울 수 있습니다.
시끄러운 오디오: 낮은 오디오 품질, 배경 소음 또는 저품질 녹음은 모델이 스피커를 올바르게 식별하고 전사하는 기능을 저해할 수 있습니다.
감성적 음성: 고함, 울음 또는 극도의 흥분과 같은 음성의 감정적 변화는 화자를 정확하게 분류하는 모델의 기능에 영향을 줄 수 있습니다.
화자 위장 또는 가장: 화자가 의도적으로 음성을 모방하거나 위장하려고 하면 모델이 화자를 잘못 식별할 수 있습니다.
모호한 화자 식별: 일부 음성 세그먼트는 모델이 특정 화자의 특성을 자신있게 나타낼 수 있는 고유한 특성이 충분하지 않을 수 있습니다.
선택한 언어 이외의 언어가 포함된 오디오는 예기치 않은 결과를 생성합니다.
각 언어를 검색하기 위한 최소 세그먼트 길이는 15초입니다.
언어 검색 오프셋은 평균 3초입니다.
음성은 연속되어야 합니다. 언어 간 잦은 교대는 모델의 성능에 영향을 줄 수 있습니다.
네이티브가 아닌 사용자의 음성은 모델의 성능에 영향을 줄 수 있습니다(예: 화자가 모국어를 사용하고 다른 언어로 전환하는 경우).
이 모델은 합리적인 오디오 음향(음성 명령, 노래 등 아님)을 사용하여 자발적인 대화형 음성을 인식하도록 설계되었습니다.
다중 언어 비디오에는 프로젝트 만들기 및 편집을 사용할 수 없습니다.
다중 언어 검색을 사용하는 경우 사용자 지정 언어 모델을 사용할 수 없습니다.
키워드 추가는 지원되지 않습니다.
언어 표시는 내보낸 선택 자막 파일에 포함되지 않습니다.
API의 업데이트 기록은 여러 언어 파일을 지원하지 않습니다.
이 모델은 자연스러운 대화 음성(음성 명령, 노래 등이 아님)을 인식하도록 설계되었습니다.
Azure AI Video Indexer가 충분히 높은 신뢰도(0.6보다 큼)로 언어를 식별할 수 없는 경우 대체 언어는 영어입니다.

지원되는 언어 목록은 다음과 같습니다.

전사, 번역 및 언어 식별 구성 요소

전사, 번역 및 언어 식별 절차 중에 미디어 파일의 음성은 다음과 같이 처리됩니다.

구성 요소	정의
원본 언어	사용자가 인덱싱을 위해 원본 파일을 업로드하며 다음 중 하나를 수행합니다. - 비디오 원본 언어를 지정합니다. - LID(단일 언어 자동 검색)를 선택하여 파일의 언어를 식별합니다. 출력은 별도로 저장됩니다. - MLID(다중 언어 자동 검색)를 선택하여 파일의 여러 언어를 식별합니다. 각 언어의 출력은 별도로 저장됩니다.
대화 내용 기록 API	오디오 파일이 Azure AI 서비스로 전송되고 번역되어 기록된 출력이 반환됩니다. 언어가 지정된 경우 그에 따라 처리됩니다. 언어를 지정하지 않으면 LID 또는 MLID 프로세스가 실행되어 파일이 처리된 언어를 식별합니다.
출력 통합	전사된 파일과 번역된 파일은 동일한 파일로 통합됩니다. 출력된 데이터에는 추출된 각 문장의 화자 ID와 신뢰도 수준이 함께 포함됩니다.
신뢰도 값	각 문장의 예상 신뢰 수준은 0~1의 범위로 계산됩니다. 신뢰도 점수는 결과의 정확도에 대한 확실성을 나타냅니다. 예를 들어 82% 확실성은 0.82 점수로 표시됩니다.

샘플 코드

VI에 대한 모든 샘플 보기

다음을 통해 공유

미디어 전사, 번역 및 언어 식별 인사이트 가져오기