다음을 통해 공유


텍스트 음성 변환을 위한 BYOS(Bring Your Own Storage) 음성 리소스 사용

BYOS(Bring Your Own Storage)는 다음과 같은 음성 텍스트 변환 시나리오에서 사용할 수 있습니다.

  • 전사 일괄 처리
  • 오디오 및 텍스트 변환 결과 로깅이 활성화된 실시간 텍스트 변환
  • 사용자 지정 음성

하나의 음성 리소스 대 스토리지 계정 페어링을 모든 시나리오에 동시에 사용할 수 있습니다.

이 문서에서는 모든 음성 텍스트 변환 시나리오에서 BYOS 지원 Speech 리소스를 사용하는 방법을 자세히 설명합니다. 이 문서에서는 완전히 구성된 BYOS 지원 음성 리소스 및 연결된 스토리지 계정이 있음을 암시합니다.

데이터 저장소

BYOS를 사용하는 경우 Speech Services는 데이터 처리(대화 기록, 모델 학습, 모델 테스트)가 완료된 후 고객 아티팩트를 유지하지 않습니다. 그러나 사용자 콘텐츠에서 파생되지 않은 일부 메타데이터는 Speech Services 프레미스 내에 저장됩니다. 예를 들어, 사용자 지정 음성 시나리오에서 서비스는 사용하는 모델과 같은 사용자 지정 엔드포인트에 대한 특정 정보를 유지합니다.

BYOS 연결 스토리지 계정은 다음 데이터를 저장합니다.

참고 항목

이 섹션에서 선택 사항은 BYOS 관련 스토리지 계정에 특정 아티팩트를 저장하는 것이 가능하지만 필수는 아님을 의미합니다. 필요한 경우 다른 곳에 저장할 수 있습니다.

일괄 처리 기록

  • 원본 오디오(선택 사항)
  • 일괄 처리 대화 기록 결과

오디오 및 텍스트 변환 결과 로깅이 활성화된 실시간 텍스트 변환

  • 오디오 및 대화 기록 결과 로그

사용자 지정 음성

  • 모델 학습 및 테스트를 위한 데이터 세트의 원본 파일(선택 사항)
  • BYOS 지원 음성 리소스에서 호스트된 사용자 지정 모델과 관련된 모든 데이터 및 메타데이터(모델 학습 및 테스트용 데이터 세트 복사본 포함)

전사 일괄 처리

일괄 처리 전사는 스토리지에서 대량의 오디오 데이터를 전사하는 데 사용됩니다. 일괄 처리 대화 기록에 익숙하지 않은 경우 먼저 이 문서를 참조하세요.

BYOS 지원 음성 리소스를 사용하여 일괄 처리 대화 기록을 실행하려면 다음 단계를 수행합니다.

  1. 이 가이드에 설명된 대로 일괄 처리 대화 기록을 시작합니다.

    Important

    대화 기록 요청에 destinationContainerUrl 매개 변수를 사용하지 마세요. BYOS를 사용하는 경우 대화 기록 결과는 BYOS 관련 스토리지 계정에 자동으로 저장됩니다.

    destinationContainerUrl 매개 변수를 사용하면 작동하지만 임시 SAS 사용으로 인해 데이터 보안이 크게 저하됩니다. 자세한 내용은 여기를 참조하세요.

  2. 대화 기록이 완료되면 이 가이드에 따라 대화 기록 결과를 가져오세요. sasValidityInSeconds 매개 변수 사용을 고려합니다(다음 섹션 참조).

Speech Services는 중간 및 최종 대화 기록 결과를 저장하기 위해 BYOS 연결 스토리지 계정의 customspeech-artifacts Blob 컨테이너를 사용합니다.

주의

Speech Services는 일괄 처리 대화 기록 모듈이 올바르게 작동하기 위해 미리 정의된 Blob 컨테이너 경로와 파일 이름을 사용합니다. customspeech-artifacts 컨테이너의 콘텐츠를 이동하거나 이름을 바꾸거나 어떤 식으로든 변경하지 마세요.

그렇게 하지 않으면 4xx 및 5xx 서비스 오류를 디버그하기 어려울 가능성이 높습니다.

표준 도구를 사용하여 일괄 처리 대화 기록과 상호 작용합니다. 자세한 내용은 일괄 처리 대화 기록 섹션을 참조하세요.

REST API를 통해 일괄 처리 대화 기록 결과 가져오기

음성을 텍스트로 변환하는 REST API는 BYOS 지원 음성 리소스를 완벽하게 지원합니다. 그러나 이제 데이터가 BYOS 지원 스토리지 계정 내에 저장되므로 대화 기록 파일 가져오기와 같은 요청은 Speech Services 내부 리소스 대신 BYOS 관련 스토리지 계정 Blob Storage와 상호 작용합니다. 이를 통해 "일반" 및 BYOS 지원 음성 리소스 모두에 대해 동일한 REST API 기반 코드를 사용할 수 있습니다.

보안을 극대화하려면 대화 기록 파일 가져오기 요청과 같이 데이터 파일 URL을 반환하는 요청에서 값이 0으로 설정된 sasValidityInSeconds 매개 변수를 사용합니다. 요청 URL의 예는 다음과 같습니다.

https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/3b24ca19-2eb1-4a2a-b964-35d89eca486b/files?sasValidityInSeconds=0

이러한 요청은 SAS 또는 기타 추가 없이 직접 스토리지 계정 URL을 데이터 파일로 반환합니다. 예시:

"links": {
        "contentUrl": "https://<BYOS_storage_account_name>.blob.core.windows.net/customspeech-artifacts/TranscriptionData/3b24ca19-2eb1-4a2a-b964-35d89eca486b_0_0.json"
      }

이 형식의 URL을 사용하면 충분한 액세스 권한(예: Storage Blob 데이터 읽기 권한자 역할)이 있는 Microsoft Entra ID(사용자, 서비스 주체, 관리 ID)만 URL의 데이터에 액세스할 수 있습니다.

Warning

대화 기록 파일 가져오기 요청이나 유사한 요청에서 sasValidityInSeconds 매개 변수가 생략된 경우 반환된 각 데이터 파일 URL에 대해 유효 기간이 5일인 사용자 위임 SAS가 생성됩니다. 이 SAS는 BYOS 지원 음성 리소스의 시스템이 할당한 관리 ID로 서명됩니다. 이로 인해 SAS는 스토리지 계정 키 액세스가 사용하지 않도록 설정된 경우에도 데이터에 대한 액세스를 허용합니다. 자세한 내용은 여기를 참조하세요.

오디오 및 텍스트 변환 결과 로깅이 활성화된 실시간 텍스트 변환

음성 텍스트 변환 또는 음성 번역을 사용할 때 오디오 입력 및 인식된 음성 모두에 대한 로깅을 사용하도록 설정할 수 있습니다. 이 문서에서 전체 설명을 참조하세요.

BYOS를 사용하는 경우 BYOS 관련 스토리지 계정의 customspeech-audiologs Blob 컨테이너에서 로그를 찾습니다.

Warning

로깅 데이터는 5일 동안 유지됩니다. 이 기간이 지나면 로그가 자동으로 삭제됩니다. 이는 BYOS 지원 음성 리소스에도 유효합니다. 로그를 더 오래 보관하려면 customspeech-audiologs Blob 컨테이너에서 해당 파일과 폴더를 직접 복사하거나 REST API를 사용합니다.

REST API를 통해 실시간 대화 기록 로그 가져오기

음성을 텍스트로 변환하는 REST API는 BYOS 지원 음성 리소스를 완벽하게 지원합니다. 그러나 이제 데이터가 BYOS 지원 스토리지 계정 내에 저장되므로 베이스 모델 로그 가져오기와 같은 요청은 Speech Services 내부 리소스 대신 BYOS 관련 스토리지 계정 Blob Storage와 상호 작용합니다. 이를 통해 "일반" 및 BYOS 지원 음성 리소스 모두에 대해 동일한 REST API 기반 코드를 사용할 수 있습니다.

보안을 극대화하려면 베이스 모델 로그 가져오기 요청과 같이 데이터 파일 URL을 반환하는 요청에서 값이 0으로 설정된 sasValidityInSeconds 매개 변수를 사용합니다. 요청 URL의 예는 다음과 같습니다.

https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/endpoints/base/en-US/files/logs?sasValidityInSeconds=0

이러한 요청은 SAS 또는 기타 추가 없이 직접 스토리지 계정 URL을 데이터 파일로 반환합니다. 예시:

"links": {
        "contentUrl": "https://<BYOS_storage_account_name>.blob.core.windows.net/customspeech-audiologs/be172190e1334399852185c0addee9d6/en-US/2023-07-06/152339_fcf52189-0d3f-4415-becd-5f639fd7fd6b.v2.json"
      }

이 형식의 URL을 사용하면 충분한 액세스 권한(예: Storage Blob 데이터 읽기 권한자 역할)이 있는 Microsoft Entra ID(사용자, 서비스 주체, 관리 ID)만 URL의 데이터에 액세스할 수 있습니다.

Warning

베이스 모델 로그 가져오기 요청이나 유사한 요청에서 sasValidityInSeconds 매개 변수가 생략된 경우 반환된 각 데이터 파일 URL에 대해 유효 기간이 5일인 사용자 위임 SAS가 생성됩니다. 이 SAS는 BYOS 지원 음성 리소스의 시스템이 할당한 관리 ID로 서명됩니다. 이로 인해 SAS는 스토리지 계정 키 액세스가 사용하지 않도록 설정된 경우에도 데이터에 대한 액세스를 허용합니다. 자세한 내용은 여기를 참조하세요.

사용자 지정 음성

사용자 지정 음성을 사용하면 애플리케이션 및 제품에 대한 음성 인식의 정확도를 평가하고 개선할 수 있습니다. 사용자 지정 음성 모델은 실시간 음성 텍스트 변환, 음성 번역 및 일괄 처리 대화 기록에 사용할 수 있습니다. 자세한 내용은 사용자 지정 음성 개요를 참조하세요.

BYOS 지원 음성 리소스와 함께 사용자 지정 음성을 사용하는 방법에 대한 구체적인 내용은 없습니다. 유일한 차이점은 Speech Services가 수집하고 생성하는 모든 사용자 지정 모델 관련 데이터가 저장되는 위치입니다. 데이터는 BYOS 관련 스토리지 계정의 다음 Blob 컨테이너에 저장됩니다.

  • customspeech-models - 사용자 지정 음성 모델의 위치
  • customspeech-artifacts - 기타 모든 사용자 지정 음성 관련 데이터의 위치

Blob 컨테이너 구조는 정보로만 제공되며 예고 없이 변경될 수 있습니다.

주의

Speech Services는 사용자 지정 음성 모듈이 올바르게 작동하기 위해 미리 정의된 Blob 컨테이너 경로와 파일 이름을 사용합니다. customspeech-models 컨테이너와 customspeech-artifacts 컨테이너의 사용자 지정 음성 관련 폴더의 콘텐츠를 이동하거나 이름을 바꾸거나 어떤 방식으로든 변경하지 마세요.

그렇게 하지 않으면 디버깅하기 어려운 오류가 발생할 가능성이 높으며 사용자 지정 모델 재학습이 필요할 수 있습니다.

REST API 및 Speech Studio와 같은 표준 도구를 사용하여 사용자 지정 음성 관련 데이터와 상호 작용합니다. 자세한 내용은 사용자 지정 음성 섹션을 참조하세요.

사용자 지정 음성에서 REST API 사용

음성을 텍스트로 변환하는 REST API는 BYOS 지원 음성 리소스를 완벽하게 지원합니다. 그러나 이제 데이터가 BYOS 지원 스토리지 계정 내에 저장되므로 Datasets_ListFiles와 같은 요청은 Speech Services 내부 리소스 대신 BYOS 관련 스토리지 계정 Blob Storage와 상호 작용합니다. 이를 통해 "일반" 및 BYOS 지원 음성 리소스 모두에 대해 동일한 REST API 기반 코드를 사용할 수 있습니다.

보안을 극대화하려면 데이터 세트 파일 가져오기 요청과 같이 데이터 파일 URL을 반환하는 요청에서 값이 0으로 설정된 sasValidityInSeconds 매개 변수를 사용합니다. 요청 URL의 예는 다음과 같습니다.

https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/8427b92a-cb50-4cda-bf04-964ea1b1781b/files?sasValidityInSeconds=0

이러한 요청은 SAS 또는 기타 추가 없이 직접 스토리지 계정 URL을 데이터 파일로 반환합니다. 예시:

 "links": {
        "contentUrl": "https://<BYOS_storage_account_name>.blob.core.windows.net/customspeech-artifacts/AcousticData/8427b92a-cb50-4cda-bf04-964ea1b1781b/4a61ddac-5b1c-4c21-b87d-22001b0f18ab.zip"
      }

이 형식의 URL을 사용하면 충분한 액세스 권한(예: Storage Blob 데이터 읽기 권한자 역할)이 있는 Microsoft Entra ID(사용자, 서비스 주체, 관리 ID)만 URL의 데이터에 액세스할 수 있습니다.

Warning

데이터 세트 파일 가져오기 요청이나 유사한 요청에서 sasValidityInSeconds 매개 변수가 생략된 경우 반환된 각 데이터 파일 URL에 대해 유효 기간이 5일인 사용자 위임 SAS가 생성됩니다. 이 SAS는 BYOS 지원 음성 리소스의 시스템이 할당한 관리 ID로 서명됩니다. 이로 인해 SAS는 스토리지 계정 키 액세스가 사용하지 않도록 설정된 경우에도 데이터에 대한 액세스를 허용합니다. 자세한 내용은 여기를 참조하세요.

다음 단계