Spraaksynthese

3 minuten

Spraaksynthese of tekst-naar-spraak is het omgekeerde van spraak-naar-tekst. Het gaat om het verzenden van tekst naar een model, dat een audiostream van de stemtekst retourneert.

Modellen die tekst-naar-spraak-bewerkingen ondersteunen, zijn onder andere:

gpt-4o-tts
gpt-4o-mini-tts

Opmerking

De beschikbaarheid van modellen verschilt per regio. Bekijk de regionale beschikbaarheidstabel van het model in de Documentatie van Microsoft Foundry.

Een tekst-naar-spraak-model gebruiken

Net als bij spraak-naar-tekstmodellen kunt u de AzureOpenAI-client in de OpenAI SDK gebruiken om verbinding te maken met het eindpunt voor uw Microsoft Foundry-resource en tekst te uploaden naar een tekst-naar-spraakmodel voor spraaksynthese.

from openai import AzureOpenAI
from pathlib import Path

# Create an AzureOpenAI client
client = AzureOpenAI(
    azure_endpoint=YOUR_FOUNDRY_ENDPOINT,
    api_key=YOUR_FOUNDRY_KEY,
    api_version="2025-03-01-preview"
)

# Path for audio output file
speech_file_path = Path("output_speech.wav")

# Generate speech and save to file
with client.audio.speech.with_streaming_response.create(
            model=YOUR_MODEL_DEPLOYMENT,
            voice="alloy",
            input="This speech was AI-generated!",
            instructions="Speak in an upbeat, excited tone.",
    ) as response:
    response.stream_to_file(speech_file_path)

print(f"Speech generated and saved to {speech_file_path}")

Feedback

Is deze pagina nuttig?