Sintesis ucapan

Selesai

Tip

Lihat tab Teks dan gambar untuk detail selengkapnya!

Sintesis ucapan, atau teks ke ucapan, adalah kebalikan dari ucapan ke teks. Ini melibatkan pengiriman teks ke model, yang mengembalikan stream audio dari teks yang divokalisasi.

Model yang mendukung operasi teks ke ucapan meliputi:

  • gpt-4o-tts
  • gpt-4o-mini-tts

Nota

Ketersediaan model bervariasi menurut wilayah. Tinjau tabel ketersediaan regional model dalam dokumentasi Microsoft Foundry.

Menggunakan model teks ke ucapan

Demikian pula dengan model ucapan ke teks, Anda dapat menggunakan klien AzureOpenAI di OpenAI SDK untuk menyambungkan ke titik akhir untuk sumber daya Microsoft Foundry Anda, dan mengunggah teks ke model teks ke ucapan untuk sintesis ucapan.

from openai import AzureOpenAI
from pathlib import Path

# Create an AzureOpenAI client
client = AzureOpenAI(
    azure_endpoint=YOUR_FOUNDRY_ENDPOINT,
    api_key=YOUR_FOUNDRY_KEY,
    api_version="2025-03-01-preview"
)

# Path for audio output file
speech_file_path = Path("output_speech.wav")

# Generate speech and save to file
with client.audio.speech.with_streaming_response.create(
            model=YOUR_MODEL_DEPLOYMENT,
            voice="alloy",
            input="This speech was AI-generated!",
            instructions="Speak in an upbeat, excited tone.",
    ) as response:
    response.stream_to_file(speech_file_path)

print(f"Speech generated and saved to {speech_file_path}")