Docker를 사용한 음성 텍스트 변환 컨테이너

아티클
09/17/2024

음성 텍스트 변환 컨테이너는 실시간 음성 또는 배치 오디오 녹음을 중간 결과로 기록합니다. 이 문서에서는 음성 텍스트 변환 컨테이너를 다운로드, 설치 및 실행하는 방법을 알아봅니다.

필수 조건, 컨테이너 실행 여부 확인, 동일한 호스트에서 여러 컨테이너 실행, 연결 해제된 컨테이너 실행에 대한 자세한 내용은 Docker를 사용하여 음성 컨테이너 설치 및 실행을 참조하세요.

컨테이너 이미지

지원되는 모든 버전 및 로캘에 대한 음성 텍스트 변환 컨테이너 이미지는 Microsoft Container Registry(MCR) 신디케이트에서 찾을 수 있습니다. azure-cognitive-services/speechservices/ 리포지토리 내에 있으며 이름은 speech-to-text입니다.

전체 컨테이너 이미지 이름은 mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text입니다. 최신 버전을 얻으려면 특정 버전을 추가하거나 :latest를 추가하세요.

버전	Path
가장 늦은 날짜	`mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text:latest` `latest` 태그는 `en-US` 로캘에 대한 최신 이미지를 가져옵니다.
4.10.0	`mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text:4.10.0-amd64-mr-in`

latest를 제외한 모든 태그는 다음과 같은 형식이며 대/소문자를 구분합니다.

<major>.<minor>.<patch>-<platform>-<locale>-<prerelease>

편의를 위해 태그는 JSON 형식으로도 제공됩니다. 본문에는 컨테이너 경로와 태그 목록이 포함됩니다. 태그는 버전별로 정렬되지 않지만 이 조각에 표시된 것처럼 "latest"은 항상 목록 끝에 포함됩니다.

{
  "name": "azure-cognitive-services/speechservices/speech-to-text",
  "tags": [
    <--redacted for brevity-->    
    "4.10.0-amd64-sw-tz",
    "4.10.0-amd64-ta-in",
    "4.10.0-amd64-th-th",
    "4.10.0-amd64-tr-tr",
    "4.10.0-amd64-vi-vn",
    "4.10.0-amd64-wuu-cn",
    "4.10.0-amd64-yue-cn",
    "4.10.0-amd64-zh-cn",
    "4.10.0-amd64-zh-cn-sichuan",
    "4.10.0-amd64-zh-hk",
    "4.10.0-amd64-zh-tw",
    "4.10.0-amd64-zu-za",
    "latest"
  ]
}

docker pull로 컨테이너 이미지 가져오기

필수 하드웨어를 포함한 필수 조건이 필요합니다. 각 음성 컨테이너에 대한 권장 리소스 할당도 참조하세요.

docker pull 명령을 사용하여 Microsoft Container Registry에서 컨테이너 이미지를 다운로드합니다.

docker pull mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text:latest

Important

latest 태그는 en-US 로캘에 대한 최신 이미지를 가져옵니다. 추가 버전 및 로캘은 음성 텍스트 변환 컨테이너 이미지를 참조하세요.

docker run을 사용하여 컨테이너 실행

docker run 명령을 사용하여 컨테이너를 실행합니다.

음성 텍스트 변환
연결이 끊긴 음성 텍스트 변환

다음 표에는 다양한 docker run 매개 변수와 해당하는 설명이 나와 있습니다.

매개 변수	설명
`{ENDPOINT_URI}`	이 엔드포인트는 측정 및 청구에 필요합니다. 자세한 내용은 청구 인수를 참조하세요.
`{API_KEY}`	API 키가 필요합니다. 자세한 내용은 청구 인수를 참조하세요.

음성 텍스트 변환 컨테이너를 실행할 때 음성 텍스트 변환 컨테이너 요구 사항 및 권장 사항에 따라 포트, 메모리 및 CPU를 구성합니다.

다음은 자리 표시자 값이 포함된 docker run 명령의 예입니다. ENDPOINT_URI 및 API_KEY 값을 지정해야 합니다.

docker run --rm -it -p 5000:5000 --memory 8g --cpus 4 \
mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

이 명령은 다음을 수행합니다.

컨테이너 이미지에서 speech-to-text 컨테이너를 실행합니다.
4개 CPU 코어 및 8GB 메모리를 할당합니다.
TCP 포트 5000을 노출하고 컨테이너의 의사-TTY를 할당합니다.
종료 후 자동으로 컨테이너를 제거합니다. 컨테이너 이미지는 호스트 컴퓨터에서 계속 사용할 수 있습니다.

인터넷에 연결되지 않은 연결 해제된 컨테이너를 실행하려면 이 요청 양식을 제출하고 승인을 기다려야 합니다. 연결이 끊긴 환경에서 컨테이너를 사용하기 위한 약정 플랜 적용 및 구매에 대한 자세한 내용은 Azure AI 서비스 문서의 연결이 끊긴 환경에서 컨테이너 사용을 참조하세요.

인터넷 연결이 끊어진 컨테이너를 실행하도록 승인된 경우 다음 예에서는 자리 표시자 값과 함께 사용할 docker run 명령의 형식을 보여줍니다. 이러한 자리 표시자 값을 고유한 값으로 바꿉니다.

docker run 명령의 DownloadLicense=True 매개 변수는 Docker 컨테이너가 인터넷에 연결되어 있지 않을 때 실행할 수 있도록 하는 라이선스 파일을 다운로드합니다. 또한 만료 날짜가 포함되어 있으며, 이후에는 라이선스 파일이 컨테이너를 실행하는 데 유효하지 않습니다. 승인된 적절한 컨테이너에만 라이선스 파일을 사용할 수 있습니다. 예를 들어, neural-text-to-speech 컨테이너가 있는 speech-to-text 컨테이너에 대한 라이선스 파일을 사용할 수 없습니다.

자리 표시자	설명
`{IMAGE}`	사용하려는 컨테이너 이미지입니다. 예: `mcr.microsoft.com/azure-cognitive-services/speech-to-text:latest`
`{LICENSE_MOUNT}`	라이선스를 다운로드하고 탑재하는 경로입니다. 예: `/host/license:/path/to/license/directory`
`{ENDPOINT_URI}`	서비스 요청을 인증하기 위한 엔드포인트입니다. Azure Portal의 리소스 키 및 엔드포인트 페이지에서 이 값을 찾을 수 있습니다. 예: `https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	음성 리소스의 키입니다. Azure Portal의 리소스 키 및 엔드포인트 페이지에서 이 값을 찾을 수 있습니다.
`{CONTAINER_LICENSE_DIRECTORY}`	컨테이너의 로컬 파일 시스템에 있는 라이선스 폴더의 위치입니다. 예: `/path/to/license/directory`

docker run --rm -it -p 5000:5000 \ 
-v {LICENSE_MOUNT} \
{IMAGE} \
eula=accept \
billing={ENDPOINT_URI} \
apikey={API_KEY} \
DownloadLicense=True \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}

라이선스 파일이 다운로드되면 연결이 끊긴 환경에서 컨테이너를 실행할 수 있습니다. 다음 예는 자리 표시자 값과 함께 사용할 docker run 명령의 형식을 보여 줍니다. 이러한 자리 표시자 값을 고유한 값으로 바꿉니다.

컨테이너가 실행되는 곳마다 라이선스 파일을 컨테이너에 탑재해야 하며 컨테이너의 로컬 파일 시스템에서 라이선스 폴더의 위치를 Mounts:License=로 지정해야 합니다. 청구 사용량 기록을 작성할 수 있도록 출력 탑재도 지정해야 합니다.

자리 표시자	값	형식 또는 예
`{IMAGE}`	사용하려는 컨테이너 이미지입니다. 예: `mcr.microsoft.com/azure-cognitive-services/speech-to-text:latest`
`{MEMORY_SIZE}`	컨테이너에 할당할 적절한 메모리 크기입니다. 예: `4g`
`{NUMBER_CPUS}`	컨테이너에 할당할 적절한 CPU 수입니다. 예: `4`
`{LICENSE_MOUNT}`	라이선스를 찾고 탑재하는 경로입니다. 예: `/host/license:/path/to/license/directory`
`{OUTPUT_PATH}`	로깅을 위한 출력 경로입니다. 예: `/host/output:/path/to/output/directory` 자세한 내용은 Azure AI 서비스 설명서의 사용 레코드를 참조하세요.
`{CONTAINER_LICENSE_DIRECTORY}`	컨테이너의 로컬 파일 시스템에 있는 라이선스 폴더의 위치입니다. 예: `/path/to/license/directory`
`{CONTAINER_OUTPUT_DIRECTORY}`	컨테이너의 로컬 파일 시스템에 있는 출력 폴더의 위치입니다. 예: `/path/to/output/directory`

docker run --rm -it -p 5000:5000 --memory {MEMORY_SIZE} --cpus {NUMBER_CPUS} \ 
-v {LICENSE_MOUNT} \ 
-v {OUTPUT_PATH} \
{IMAGE} \
eula=accept \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}
Mounts:Output={CONTAINER_OUTPUT_DIRECTORY}

음성 컨테이너는 런타임 시 라이선스 파일과 청구 로그를 작성하기 위한 기본 디렉터리를 제공합니다. 기본 디렉터리는 각각 /license 및 /output입니다.

docker run -v 명령을 사용하여 이러한 디렉터리를 컨테이너에 탑재할 때 컨테이너를 실행하기 전에 로컬 컴퓨터 디렉터리의 소유권이 user:group nonroot:nonroot로 설정되어 있는지 확인합니다.

다음은 파일/디렉터리 소유권을 설정하는 샘플 명령입니다.

sudo chown -R nonroot:nonroot <YOUR_LOCAL_MACHINE_PATH_1> <YOUR_LOCAL_MACHINE_PATH_2> ...

음성 컨테이너가 있는 docker run에 대한 자세한 내용은 Docker를 사용하여 음성 컨테이너 설치 및 실행을 참조하세요.

컨테이너 사용

음성 컨테이너는 음성 SDK 및 음성 CLI를 통해 액세스되는 websocket 기반 쿼리 엔드포인트 API를 제공합니다. 기본적으로 음성 SDK 및 음성 CLI는 공개 음성 서비스를 사용합니다. 컨테이너를 사용하려면 초기화 메서드를 변경해야 합니다.

Important

컨테이너와 함께 음성 서비스를 사용하는 경우 호스트 인증을 사용해야 합니다. 키와 지역을 구성하면 요청이 공개 음성 서비스로 이동됩니다. 음성 서비스의 결과가 예상과 다를 수 있습니다. 연결이 끊긴 컨테이너의 요청은 실패합니다.