Sintetizar voz

3 minutos

La síntesis de voz, o texto a voz, es la inversa de la conversión de voz en texto. Implica enviar texto a un modelo, que devuelve una secuencia de audio del texto vocalizado.

Los modelos que admiten operaciones de texto a voz incluyen:

gpt-4o-tts
gpt-4o-mini-tts

Nota:

La disponibilidad de los modelos varía según la región. Revise la tabla de disponibilidad regional del modelo en la documentación de Microsoft Foundry.

Uso de un modelo de texto a voz

De forma similar a los modelos de conversión de voz a texto, puede usar el cliente AzureOpenAI en el SDK de OpenAI para conectarse al punto de conexión del recurso de Microsoft Foundry y cargar texto en un modelo de texto a voz para la síntesis de voz.

from openai import AzureOpenAI
from pathlib import Path

# Create an AzureOpenAI client
client = AzureOpenAI(
    azure_endpoint=YOUR_FOUNDRY_ENDPOINT,
    api_key=YOUR_FOUNDRY_KEY,
    api_version="2025-03-01-preview"
)

# Path for audio output file
speech_file_path = Path("output_speech.wav")

# Generate speech and save to file
with client.audio.speech.with_streaming_response.create(
            model=YOUR_MODEL_DEPLOYMENT,
            voice="alloy",
            input="This speech was AI-generated!",
            instructions="Speak in an upbeat, excited tone.",
    ) as response:
    response.stream_to_file(speech_file_path)

print(f"Speech generated and saved to {speech_file_path}")

Comentarios

¿Le ha resultado útil esta página?