Speech Service란?

2025-06-25

음성 서비스는 음성 리소스를 통해 음성 텍스트 변환 및 텍스트 음성 변환 기능을 제공합니다. 높은 정확도로 음성을 텍스트로 변환하고, 자연스러운 텍스트 음성 변환을 생성하고, 음성 오디오를 번역하고, 대화 중에 화자 인식을 사용할 수 있습니다.

일부 Speech Service 기능을 강조 표시하고 있는 타일 이미지.

사용자 지정 음성을 만들고 기본 어휘에 특정 단어를 추가하거나 고유한 모델을 빌드합니다. 클라우드 또는 컨테이너의 에지 어디에서나 Speech를 실행합니다. Speech CLI, Speech SDK 및 REST API를 통해 애플리케이션, 도구 및 디바이스를 음성으로 쉽게 사용할 수 있습니다.

다양한 언어, 지역 및 가격에서 음성을 사용할 수 있습니다.

음성 시나리오

음성에 대한 일반적인 시나리오는 다음과 같습니다.

캡션: 에는 캡션을 입력 오디오와 동기화하고, 욕설 필터를 적용하고, 부분 결과를 얻고, 사용자 지정을 적용하고, 다국어 시나리오에 대해 음성 언어를 식별하는 방법이 포함됩니다.
오디오 콘텐츠 만들기: 신경망 음성을 사용하여 챗봇 및 음성 에이전트와의 상호 작용을 보다 자연스럽고 매력적으로 만들고, 전자책과 같은 디지털 텍스트를 오디오북으로 변환하고, 차량 내 탐색 시스템을 향상시킬 수 있습니다.
콜 센터: 실시간으로 통화를 기록하거나 일괄 처리하고, 개인 식별 정보를 수정하고, 감정과 같은 인사이트를 추출하여 콜 센터 사용 사례에 도움이 됩니다.
언어 학습: 언어 학습자에게 발음 평가 피드백을 제공하고, 원격 학습 대화에 대한 실시간 대화 내용 기록을 지원하며, 신경망 음성으로 소리 내어 학습 자료를 읽습니다.
음성 라이브: 애플리케이션 및 경험을 위한 자연스럽고 사람과 같은 대화형 인터페이스를 만듭니다. 음성 라이브 기능은 인간과 에이전트 구현 간의 빠르고 안정적인 상호 작용을 제공합니다.

Microsoft는 Teams의 캡션, Office 365의 받아쓰기, Microsoft Edge 브라우저의 소리 내어 읽기와 같은 다양한 시나리오에 음성을 사용합니다.

Speech Service를 사용하는 Microsoft 제품의 로고를 보여 주는 이미지.

음성 기능

다음 섹션에서는 음성 기능에 대한 요약과 함께 자세한 내용을 볼 수 있는 링크를 제공합니다.

음성 텍스트 변환

음성 텍스트 변환을 사용하면 실시간 또는 일괄 대화 내용 기록을 통해 비동기적으로 오디오를 텍스트로 변환할 수 있습니다.

팁

가입하거나 코드를 작성하지 않고도 Speech Studio에서 실시간 음성을 텍스트로 변환해 볼 수 있습니다.

마이크, 오디오 파일 및 Blob Storage를 포함한 다양한 원본의 오디오를 텍스트로 변환합니다. 화자 분할을 사용하여 누가 언제 무엇을 말했는지 확인하세요. 자동 서식 지정 및 구두점으로 읽을 수 있는 스크립트를 가져옵니다.

오디오에 주변 노이즈가 포함되어 있거나 업계 및 영역별 전문 용어가 많이 포함된 경우 베이스 모델이 충분하지 않을 수 있습니다. 이러한 경우 음향, 언어 및 발음 데이터를 사용하여 Custom Speech 모델을 만들고 학습시킬 수 있습니다. Custom Speech 모델은 프라이빗하며 경쟁 우위를 제공할 수 있습니다.

실시간 음성 텍스트 변환

실시간 음성 텍스트 변환을 사용하면 마이크나 파일에서 음성이 인식될 때 오디오의 대화 내용이 기록됩니다. 다음과 같이 실시간으로 오디오의 대화 내용을 기록해야 하는 애플리케이션에 실시간 음성 텍스트 변환 기능을 사용하세요.

실시간 모임의 대화 내용 기록, 캡션 또는 자막
화자 분리
발음 평가
고객 센터 에이전트 지원
받아쓰기
음성 에이전트

빠른 대화기록 API

빠른 대화기록 API는 실시간 오디오보다 훨씬 빠르게 결과를 동기식으로 반환하여 오디오 파일을 기록하는 데 사용됩니다. 다음과 같이 예측 가능한 대기 시간으로 가능한 한 빨리 오디오 녹음 내용을 기록해야 하는 시나리오에서는 빠른 대화기록을 사용합니다.

빠른 오디오 또는 동영상 대화 내용 기록, 자막 및 편집.
동영상 번역

빠른 대화기록을 시작하려면 빠른 대화기록 API 사용을 참조하세요.

일괄 대화 내용 기록

일괄 대화 내용 기록은 스토리지에서 대량의 오디오를 기록하는 데 사용됩니다. SAS(공유 액세스 서명) URI가 있는 오디오 파일을 가리키고 비동기적으로 전사 결과를 받을 수 있습니다. 다음과 같이 오디오를 대량으로 텍스트로 기록해야 하는 애플리케이션에는 일괄 대화 내용 기록을 사용하세요.

사전 녹음된 오디오의 대화 내용 기록, 캡션 또는 자막
고객 센터 사후 통화 분석
화자 분리

텍스트 음성 변환

텍스트 음성 변환을 사용하면 입력 텍스트를 사람과 유사한 합성된 음성으로 변환할 수 있습니다. 심층 신경망에 의해 구동되는 인간과 유사한 음성인 인공신경망을 사용합니다. SSML(Speech Synthesis Markup Language)을 사용하여 음높이, 발음, 말하기 속도, 음량 등을 미세 조정합니다.

표준 음성: 매우 자연스러운 기본 음성입니다. 음성 갤러리의 표준 음성 샘플을 확인하고 비즈니스 요구 사항에 적합한 음성을 확인합니다.
사용자 지정 음성: 상자에서 나오는 표준 음성 외에도 브랜드 또는 제품에 대해 인식할 수 있고 고유한 사용자 지정 음성 을 만들 수도 있습니다. 사용자 지정 음성은 비공개이며 경쟁 우위를 제공할 수 있습니다. 여기에서 사용자 지정 음성 샘플을 확인 합니다.

음성 번역

음성 번역을 사용하면 애플리케이션, 도구 및 디바이스에 대한 실시간 다국어 음성 번역이 가능합니다. 음성을 음성으로 변환과 음성 텍스트 변환에 이 기능을 사용합니다.

언어 식별

언어 식별은 지원되는 언어 목록과 비교할 때 오디오에서 말하는 언어를 식별하는 데 사용됩니다. 음성 텍스트 변환 인식 또는 음성 번역에서 언어 식별을 단독으로 사용합니다.

화자 인식

화자 인식은 고유한 음성 특성에 따라 화자를 확인 및 식별하는 알고리즘을 제공합니다. 화자 인식은 "누가 말하고 있나요?"라는 질문에 대답하는 데 사용됩니다.

발음 평가

발음 평가는 음성 발음을 평가하고 음성 오디오의 정확도와 능숙도에 대한 피드백을 발표자에게 제공합니다. 발음 평가를 통해 언어 학습자는 자신 있게 말하고 발표할 수 있도록 연습하고, 즉각적인 피드백을 받고, 발음을 개선할 수 있습니다.

의도 인식

의도 인식: 대화 언어 이해와 함께 음성 텍스트 변환을 사용하여 기록된 음성에서 사용자 의도를 도출하고 음성 명령에 따라 동작합니다.

제공 및 현재 상태

클라우드 또는 온-프레미스에 Azure AI Speech 기능을 배포할 수 있습니다.

컨테이너를 사용하면 규정 준수, 보안 또는 기타 운영상의 이유로 서비스를 데이터에 더 가깝게 가져올 수 있습니다.

소버린 클라우드의 Speech Services 배포는 일부 정부 기관 및 파트너가 사용할 수 있습니다. 예를 들어 Azure Government 클라우드는 미국 정부 기관 및 파트너가 사용할 수 있습니다. 21Vianet 클라우드로 운영되는 Microsoft Azure는 중국에 사업장이 있는 조직에서 사용할 수 있습니다. 자세한 내용은 소버린 클라우드를 참조하세요.

Speech Service를 배포하고 액세스할 수 있는 위치를 보여 주는 다이어그램.

애플리케이션에서 Speech 사용

Speech Studio는 Azure AI Speech 서비스의 기능을 애플리케이션에 구축하고 통합하기 위한 UI 기반 도구 세트입니다. 코드 없는 방식을 사용하여 Speech Studio에서 프로젝트를 만든 다음, Speech SDK, Speech CLI 또는 REST API를 사용하여 애플리케이션에서 해당 자산을 참조합니다.

Speech CLI는 코드를 작성할 필요 없이 Speech Service를 사용하기 위한 명령줄 도구입니다. Speech SDK의 대부분의 기능은 Speech CLI에서 사용할 수 있으며 일부 고급 기능 및 사용자 지정은 Speech CLI에서 단순화됩니다.

Speech SDK는 음성 지원 애플리케이션을 개발하는 데 사용할 수 있는 많은 Speech Services 기능을 제공합니다. Speech SDK는 많은 프로그래밍 언어 및 모든 플랫폼에서 사용할 수 있습니다.

경우에 따라 Speech SDK를 사용할 수 없거나 사용해서는 안 됩니다. 이러한 경우 REST API를 사용하여 Speech Services에 액세스할 수 있습니다. 예를 들어 일괄 처리 대화 기록 및 화자 인식 REST API에 REST API를 사용합니다.

시작하기

Microsoft는 여러 개의 자주 사용되는 프로그래밍 언어로 빠른 시작을 제공합니다. 각 빠른 시작은 기본 디자인 패턴을 학습하고 코드를 10분 이내에 실행할 수 있도록 설계되었습니다. 각 기능에 대한 빠른 시작은 다음 목록을 참조하세요.

코드 샘플

Speech Services에 대한 샘플 코드는 GitHub에서 사용할 수 있습니다. 이러한 샘플은 파일 또는 스트림에서 오디오 읽기, 연속 및 1단계 인식 및 사용자 지정 모델 사용과 같은 일반적인 시나리오를 다룹니다. 다음 링크를 사용하여 SDK 및 REST 샘플을 확인하세요.

책임 있는 인공지능

AI 시스템에는 기술뿐만 아니라 이를 사용하는 사람, 영향을 받는 사람, 배포되는 환경도 포함됩니다. 투명성 고지를 읽어보고 시스템에서의 책임 있는 AI 사용 및 배포에 대해 알아보세요.

다음을 통해 공유

Speech Service란?

음성 시나리오

음성 기능

음성 텍스트 변환

실시간 음성 텍스트 변환

빠른 대화기록 API

일괄 대화 내용 기록

텍스트 음성 변환

음성 번역

언어 식별

화자 인식

발음 평가

의도 인식

제공 및 현재 상태

애플리케이션에서 Speech 사용

시작하기

코드 샘플

책임 있는 인공지능

음성 텍스트 변환

발음 평가

사용자 지정 음성

화자 인식

다음 단계

피드백

추가 리소스