다음을 통해 공유


Foundry Tools의 Azure Speech를 에이전트에 연결

Foundry 도구의 Azure Speech를 사용하면 에이전트가 음성을 텍스트로 변환하고 텍스트에서 음성 오디오를 생성할 수 있습니다. Foundry 에이전트 서비스의 에이전트에 MCP(원격 모델 컨텍스트 프로토콜) 서버를 추가하여 도구를 연결합니다.

중요합니다

Speech MCP 도구는 네트워크 보안 Microsoft Foundry를 지원하지 않습니다. 자세한 내용은 모델 컨텍스트 프로토콜 서버에 연결을 참조하세요.

필수 조건

사용량 지원

이 문서에서는 Foundry 포털에서 도구를 연결하는 방법을 보여 줍니다.

코드를 사용하려면 Python, C# 및 JavaScript의 SDK 예제에 대한 모델 컨텍스트 프로토콜 서버에 연결을 참조하세요.

보안 및 개인 정보

Speech 리소스 키 및 스토리지 SAS URL을 비밀로 처리합니다.

  • 에이전트 프롬프트, 채팅 대화 내용, 스크린샷 또는 소스 제어에 키 또는 SAS URL을 붙여넣지 마세요.
  • 가장 짧은 실제 SAS 만료 시간을 사용합니다.
  • SAS URL을 필요한 최소 리소스(예: 단일 컨테이너)로 범위 지정합니다.
  • 정기적으로 키를 보안 모범 사례로 회전하거나, 키가 노출된 것으로 의심되는 경우 즉시 회전합니다.

스토리지 설정

음성 텍스트 변환 처리를 위해 입력 오디오 파일을 저장하고 텍스트 음성 변환 처리에서 출력 오디오 파일을 수신하려면 Azure Storage 계정이 필요합니다. Azure Storage 계정을 만듭니다.

나중에 SAS URL을 만들 수 있도록 사용자 계정에 스토리지 계정에 할당된 Storage Blob 데이터 기여자 역할이 있는지 확인합니다.

하나 이상의 Blob 컨테이너를 만들어 입력 및 출력 오디오 파일을 저장합니다.

에이전트 만들기

  1. Microsoft Foundry로 이동합니다.
  2. 오른쪽 위 메뉴에서 빌드를 선택합니다.
  3. 왼쪽 창에서 에이전트를 선택한 다음 에이전트 만들기를 선택합니다.
  4. 이름과 설명을 입력한 다음만들기를 선택합니다.

에이전트에 Azure Speech 도구 연결

  1. 당신의 대리인 내에서 대리인 플레이그라운드를 실행합니다.

  2. 도구에서 추가 ->새 도구 추가를 선택합니다.

  3. 도구 선택에서 카탈로그 탭을 선택합니다.

  4. Azure Speech MCP 서버를 검색하고 선택한 다음 만들기를 선택합니다.

  5. 설치 페이지에서 다음 필드를 입력합니다.

    • 매개 변수 ->foundry-resource-name: 필수 구성 요소에서 만든 Foundry 리소스의 이름을 입력합니다.
    • 권한 부여 ->Bearer (API 키): Foundry 리소스에서 키를 입력합니다. Azure Portal에서 리소스의 KEY1 페이지에 있는 KEY2 또는 중 하나를 사용할 수 있습니다.
    • 권한 부여 ->X-Blob-Container-Url 읽기 및 쓰기 권한이 있는 스토리지 컨테이너에 대한 SAS URL을 생성한 다음 여기에 입력합니다. 서비스는 이 컨테이너에 오디오 출력 파일을 저장합니다.
  6. 연결을 선택하여 원격 Speech MCP 서버를 에이전트의 도구로 추가합니다.

    연결한 후 음성 도구가 에이전트의 도구 목록에 연결된 상태로 표시됩니다.

Azure Speech 도구 테스트

에이전트 플레이그라운드 채팅에서 What can you do?를 입력합니다.

팁 (조언)

최상의 결과를 얻으려면 지원되는 기본 모델을 선택합니다.

에이전트는 음성 텍스트 변환 및 텍스트 음성 변환과 같이 새로 추가된 음성 기능을 포함하여 사용 가능한 기능을 나열합니다. 이렇게 하면 원격 Speech MCP 서버가 성공적으로 연결되었는지 확인합니다.

음성 텍스트 변환 테스트

음성 도구는 오디오 파일을 텍스트로 변환할 수 있습니다. 오디오 파일은 Azure Blob Storage에 저장하고 SAS URL로 액세스하거나 오디오 파일에 공개적으로 액세스할 수 있는 URL일 수 있습니다.

비고

지원되는 오디오 형식에는 WAV, MP3, OGG, FLAC 및 기타 일반적인 형식이 포함됩니다. 음성 인식으로 최상의 결과를 보려면 16kHz 샘플 속도와 16비트 깊이의 WAV 파일을 사용합니다.

  1. Azure Blob Storage 컨테이너에 오디오 파일을 업로드합니다.
  2. 파일에 대한 SAS URL을 생성합니다.
    1. 업로드된 오디오 파일을 선택합니다.
    2. 속성에서 SAS 생성을 선택합니다.
    3. 가장 짧은 실제 만료 시간을 설정한 다음 SAS 토큰 및 URL 생성을 선택합니다.
  3. SAS URL을 복사합니다. 그런 다음 에이전트 채팅 창의 다음 예제 프롬프트 중 하나에서 사용합니다.
    • Recognize this English audio file located in <blob SAS URL>
    • Recognize the audio file located in <blob SAS URL> with these phrase hints: "Azure, OpenAI, Cognitive Services, Lucy" to improve accuracy.
    • Convert this audio file located in <blob SAS URL> into text and summarize it for me.
    • Recognize this French audio file located in <blob SAS URL> with detailed output format.
    • Recognize this Hindi audio file located in <blob SAS URL> and remove profanity.
  4. 채팅 창에서 출력 텍스트를 봅니다.

텍스트 음성 변환 테스트

에이전트 플레이그라운드에서 새 채팅을 시작하고 다음 예제 프롬프트 중 하나를 사용합니다. 자리 표시자를 사용자 고유의 텍스트로 바꿉다.

  • Convert text to speech: <your text to speak>
  • Synthesize speech from "<your text to speak>"
  • Generate speech audio from text "<your text to speak>"
  • Convert text to speech with Chinese language: <your text to speak>
  • Synthesize speech with voice en-US-JennyNeural from text <your text to speak>

출력 오디오는 Blob 컨테이너에 WAV 파일로 저장됩니다. 채팅 창에 오디오 링크가 표시됩니다. 출력을 듣기 위해 선택하십시오.

문제 해결

문제 가능한 원인 해결 방법
도구 카탈로그에서 Azure Speech MCP 서버를 찾을 수 없습니다. 이 도구는 테넌트, 지역 또는 시나리오에 사용할 수 없습니다. Foundry 리소스가 지원되는 지역에 생성되어 있는지 확인하고 다시 시도합니다.
권한 부여 오류로 연결이 실패합니다. API 키가 잘못되었거나 만료되었습니다. KEY1 또는 KEY2를 리소스의 키 및 엔드포인트 페이지에서 다시 복사하세요. 필요한 경우 키를 회전합니다.
음성 출력 오디오 링크가 작동하지 않습니다. 컨테이너 SAS URL이 잘못되었거나 만료되었거나 권한이 없습니다. 읽기 및 쓰기 권한과 유효한 만료 시간을 사용하여 컨테이너 SAS URL을 다시 생성합니다.
음성 텍스트 변환은 오디오 파일에 액세스할 수 없습니다. SAS URL 파일이 잘못되었거나 만료되었습니다. 파일 SAS URL을 다시 생성하고 프롬프트를 다시 시도합니다.

다음 단계:

다음 음성 기능은 Foundry(신규) 포털에서 사용할 수 있습니다.