Synthetisieren von Sprache

Abgeschlossen

Sprachsynthese oder Text-zu-Sprache ist die Umkehrung von Sprache zu Text. Es umfasst das Übermitteln von Text an ein Modell, das einen Audiostream des vokalisierten Texts zurückgibt.

Modelle, die Text-zu-Sprache-Vorgänge unterstützen, umfassen:

  • gpt-4o-tts
  • gpt-4o-mini-tts

Hinweis

Die Modellverfügbarkeit variiert je nach Region. Überprüfen Sie die Regionale Verfügbarkeitstabelle des Modells in der Microsoft Foundry-Dokumentation.

Verwenden eines Text-zu-Sprache-Modells

Ähnlich wie bei Sprach-zu-Text-Modellen können Sie den AzureOpenAI-Client im OpenAI SDK verwenden, um eine Verbindung mit dem Endpunkt für Ihre Microsoft Foundry-Ressource herzustellen und Text in ein Text-zu-Sprache-Modell für die Sprachsynthese hochzuladen.

from openai import AzureOpenAI
from pathlib import Path

# Create an AzureOpenAI client
client = AzureOpenAI(
    azure_endpoint=YOUR_FOUNDRY_ENDPOINT,
    api_key=YOUR_FOUNDRY_KEY,
    api_version="2025-03-01-preview"
)

# Path for audio output file
speech_file_path = Path("output_speech.wav")

# Generate speech and save to file
with client.audio.speech.with_streaming_response.create(
            model=YOUR_MODEL_DEPLOYMENT,
            voice="alloy",
            input="This speech was AI-generated!",
            instructions="Speak in an upbeat, excited tone.",
    ) as response:
    response.stream_to_file(speech_file_path)

print(f"Speech generated and saved to {speech_file_path}")