미디어 전사, 번역 및 언어 식별 인사이트 가져오기
미디어 전사, 번역 및 언어 식별
전사, 번역 및 언어 식별은 미디어 파일의 음성을 감지, 전사 및 번역하여 50개 이상의 언어로 변환합니다.
Azure AI VI(Video Indexer)는 오디오 파일의 음성을 처리하여 여러 언어로 번역되는 전사를 추출합니다. 특정 언어로 번역하도록 선택할 때 키워드, 토픽, 레이블 또는 OCR과 같은 전사와 인사이트가 모두 지정된 언어로 번역됩니다. 전사는 그대로 사용하거나 대본을 스피커에 매핑하고 할당하는 발화자 인사이트와 결합할 수 있습니다. 오디오 파일에서 여러 스피커를 검색할 수 있습니다. ID는 각 스피커에 할당되며 전사된 음성 아래에 표시됩니다.
LID(언어 식별) 는 비디오 파일에서 지원되는 주요 음성 언어를 인식합니다. 자세한 내용은 LID 적용을 참조하십시오.
MLID(다중 언어 식별) 는 오디오 파일의 여러 세그먼트에서 음성 언어를 자동으로 인식하고 식별된 언어로 전사할 각 세그먼트를 보냅니다. 이 프로세스가 끝나면 모든 전사가 동일한 파일로 결합됩니다. 자세한 내용은 MLID 적용을 참조하십시오. 결과 인사이트는 ID, 언어, 전사된 텍스트, 기간 및 신뢰도 점수를 포함하는 JSON 파일의 분류된 목록에서 생성됩니다.
여러 스피커를 사용하여 미디어 파일을 인덱싱할 때 Azure AI Video Indexer는 비디오의 각 스피커를 식별하고 각 전사된 줄을 스피커에 특성화하는 화자 다이어리화를 수행합니다. 스피커에는 Speaker #1 및 Speaker #2와 같은 고유한 ID가 제공됩니다. 이렇게 하면 대화 중에 화자를 식별할 수 있으며 의사-환자 대화, 에이전트-고객 상호 작용 및 법원 절차와 같은 다양한 시나리오에서 유용할 수 있습니다.
미디어 전사, 번역 및 언어 식별 사용 사례
- 음성을 텍스트로 변환하고 여러 언어로 번역하는 Azure AI Video Indexer를 사용하여 청각 장애가 있는 사용자가 콘텐츠를 사용할 수 있도록 하여 접근성을 촉진합니다.
- Azure AI Video Indexer의 전사 및 번역 기능을 사용해 여러 언어로 콘텐츠를 제공하여 다양한 지역 및 언어의 다양한 대상에게 콘텐츠 배포를 개선합니다.
- Azure AI Video Indexer의 전사 및 번역 기능을 사용하고 Azure AI Video Indexer에서 생성된 선택 자막을 지원되는 형식 중 하나로 사용하여 수동 선택 자막 및 자막 생성을 향상시키고 개선합니다.
- LID(언어 식별) 또는 MLID(다중 언어 식별)를 사용하여 알 수 없는 언어로 비디오를 전사하여 Azure AI Video Indexer가 비디오에 표시되는 언어를 자동으로 식별하고 그에 따라 전사를 생성할 수 있도록 합니다.
웹 포털을 사용하여 인사이트 JSON 보기
비디오를 업로드하고 인덱싱한 후에는 웹 포털을 사용하여 JSON 형식으로 인사이트를 다운로드할 수 있습니다.
- 라이브러리 탭을 선택합니다.
- 작업할 미디어를 선택합니다.
- 다운로드 및 인사이트(JSON)를 선택합니다. JSON 파일이 새 브라우저 탭에서 열립니다.
- 예제 응답에 설명된 키 쌍을 찾습니다.
API 사용
예제 응답
비디오에서 감지된 모든 언어는 sourceLanauge 아래에 있으며 전사 sectin의 각 인스턴스에는 trascribed 언어가 포함됩니다.
"insights": {
"version": "1.0.0.0",
"duration": "0:01:50.486",
"sourceLanguage": "en-US",
"sourceLanguages": [
"es-ES",
"en-US"
],
"language": "en-US",
"languages": [
"en-US"
],
"transcript": [
{
"id": 1,
"text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
"confidence": 0.8879,
"speakerId": 1,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:00",
"adjustedEnd": "0:00:05.75",
"start": "0:00:00",
"end": "0:00:05.75"
}
]
},
{
"id": 2,
"text": "Emily Tran, with office graphics.",
"confidence": 0.8879,
"speakerId": 1,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:05.75",
"adjustedEnd": "0:00:07.01",
"start": "0:00:05.75",
"end": "0:00:07.01"
}
]
},
Important
모든 VI 기능에 대한 투명도 참고 개요를 읽는 것이 중요합니다. 각 인사이트에는 자체의 투명성 메모도 있습니다.
전사, 번역 및 언어 식별 메모
책임감 있고 신중하게 사용하는 경우 Azure AI Video Indexer는 많은 업계에서 유용한 도구입니다. 귀하는 항상 다른 사람의 개인 정보 보호와 안전을 존중하고 현지 및 글로벌 규정을 준수해야 합니다. 다음이 권장됩니다.
- 결과의 정확도를 신중하게 고려하고, 보다 정확한 데이터를 승격하고, 오디오의 품질을 확인하고, 낮은 품질의 오디오가 감지된 인사이트에 영향을 줄 수 있습니다.
- Video Indexer는 화자 인식을 수행하지 않으므로 여러 파일에 식별자가 할당되지 않습니다. 여러 파일 또는 대본에서 개별 화자를 검색할 수 없습니다.
- 화자 식별자는 임의로 할당되며 단일 파일에서 다른 화자를 구분하는 데만 사용할 수 있습니다.
- 크로스 토크 및 겹치는 음성: 여러 화자가 동시에 대화하거나 서로 방해되는 경우 모델이 올바른 텍스트를 정확하게 구분하여 해당 화자에게 할당하기가 어려워집니다.
- 스피커 겹침: 경우에 따라 화자가 비슷한 음성 패턴, 악센트를 사용하거나 비슷한 어휘를 사용하여 모델을 구분하기가 어려울 수 있습니다.
- 시끄러운 오디오: 낮은 오디오 품질, 배경 소음 또는 저품질 녹음은 모델이 스피커를 올바르게 식별하고 전사하는 기능을 저해할 수 있습니다.
- 감성적 음성: 고함, 울음 또는 극도의 흥분과 같은 음성의 감정적 변화는 화자를 정확하게 분류하는 모델의 기능에 영향을 줄 수 있습니다.
- 화자 위장 또는 가장: 화자가 의도적으로 음성을 모방하거나 위장하려고 하면 모델이 화자를 잘못 식별할 수 있습니다.
- 모호한 화자 식별: 일부 음성 세그먼트는 모델이 특정 화자의 특성을 자신있게 나타낼 수 있는 고유한 특성이 충분하지 않을 수 있습니다.
- 선택한 언어 이외의 언어가 포함된 오디오는 예기치 않은 결과를 생성합니다.
- 각 언어를 검색하기 위한 최소 세그먼트 길이는 15초입니다.
- 언어 검색 오프셋은 평균 3초입니다.
- 음성은 연속되어야 합니다. 언어 간 잦은 교대는 모델의 성능에 영향을 줄 수 있습니다.
- 네이티브가 아닌 사용자의 음성은 모델의 성능에 영향을 줄 수 있습니다(예: 화자가 모국어를 사용하고 다른 언어로 전환하는 경우).
- 이 모델은 합리적인 오디오 음향(음성 명령, 노래 등 아님)을 사용하여 자발적인 대화형 음성을 인식하도록 설계되었습니다.
- 다중 언어 비디오에는 프로젝트 만들기 및 편집을 사용할 수 없습니다.
- 다중 언어 검색을 사용하는 경우 사용자 지정 언어 모델을 사용할 수 없습니다.
- 키워드 추가는 지원되지 않습니다.
- 언어 표시는 내보낸 선택 자막 파일에 포함되지 않습니다.
- API의 업데이트 기록은 여러 언어 파일을 지원하지 않습니다.
- 이 모델은 자연스러운 대화 음성(음성 명령, 노래 등이 아님)을 인식하도록 설계되었습니다.
- Azure AI Video Indexer가 충분히 높은 신뢰도(0.6보다 큼)로 언어를 식별할 수 없는 경우 대체 언어는 영어입니다.
지원되는 언어 목록은 다음과 같습니다.
전사, 번역 및 언어 식별 구성 요소
전사, 번역 및 언어 식별 절차 중에 미디어 파일의 음성은 다음과 같이 처리됩니다.
구성 요소 | 정의 |
---|---|
원본 언어 | 사용자가 인덱싱을 위해 원본 파일을 업로드하며 다음 중 하나를 수행합니다. - 비디오 원본 언어를 지정합니다. - LID(단일 언어 자동 검색)를 선택하여 파일의 언어를 식별합니다. 출력은 별도로 저장됩니다. - MLID(다중 언어 자동 검색)를 선택하여 파일의 여러 언어를 식별합니다. 각 언어의 출력은 별도로 저장됩니다. |
대화 내용 기록 API | 오디오 파일이 Azure AI 서비스로 전송되고 번역되어 기록된 출력이 반환됩니다. 언어가 지정된 경우 그에 따라 처리됩니다. 언어를 지정하지 않으면 LID 또는 MLID 프로세스가 실행되어 파일이 처리된 언어를 식별합니다. |
출력 통합 | 전사된 파일과 번역된 파일은 동일한 파일로 통합됩니다. 출력된 데이터에는 추출된 각 문장의 화자 ID와 신뢰도 수준이 함께 포함됩니다. |
신뢰도 값 | 각 문장의 예상 신뢰 수준은 0~1의 범위로 계산됩니다. 신뢰도 점수는 결과의 정확도에 대한 확실성을 나타냅니다. 예를 들어 82% 확실성은 0.82 점수로 표시됩니다. |