Mentranskripsikan ucapan
Tip
Lihat tab Teks dan gambar untuk detail selengkapnya!
Transkripsi ucapan, atau ucapan ke teks, melibatkan pengiriman konten audio ke model, yang merespons dengan transkrip ucapan berbasis teks di sumber audio.
Model yang mendukung operasi ucapan ke teks meliputi:
- gpt-4o-transcribe
- gpt-4o-mini-transcribe
- gpt-4o-transcribe-diarize
Nota
Ketersediaan model bervariasi menurut wilayah. Tinjau tabel ketersediaan regional model dalam dokumentasi Microsoft Foundry.
Menggunakan model ucapan ke teks
Untuk menggunakan model ucapan ke teks di aplikasi Anda sendiri, Anda dapat menggunakan klien AzureOpenAI di OpenAI SDK untuk menyambungkan ke titik akhir untuk sumber daya Microsoft Foundry Anda, dan mengunggah konten file audio ke model untuk transkripsi.
from openai import AzureOpenAI
from pathlib import Path
# Create an AzureOpenAI client
client = AzureOpenAI(
azure_endpoint=YOUR_FOUNDRY_ENDPOINT,
api_key=YOUR_FOUNDRY_KEY,
api_version="2025-03-01-preview"
)
# Get the audio file
file_path = Path("speech.mp3")
audio_file = open(file_path, "rb")
# Use the model to transcribe the audio file
transcription = client.audio.transcriptions.create(
model=YOUR_MODEL_DEPLOYMENT,
file=audio_file,
response_format="text"
)
print(transcription)