Mentranskripsikan ucapan

3 menit

Tip

Lihat tab Teks dan gambar untuk detail selengkapnya!

Transkripsi ucapan, atau ucapan ke teks, melibatkan pengiriman konten audio ke model, yang merespons dengan transkrip ucapan berbasis teks di sumber audio.

Model yang mendukung operasi ucapan ke teks meliputi:

gpt-4o-transcribe
gpt-4o-mini-transcribe
gpt-4o-transcribe-diarize

Nota

Ketersediaan model bervariasi menurut wilayah. Tinjau tabel ketersediaan regional model dalam dokumentasi Microsoft Foundry.

Menggunakan model ucapan ke teks

Untuk menggunakan model ucapan ke teks di aplikasi Anda sendiri, Anda dapat menggunakan klien AzureOpenAI di OpenAI SDK untuk menyambungkan ke titik akhir untuk sumber daya Microsoft Foundry Anda, dan mengunggah konten file audio ke model untuk transkripsi.

from openai import AzureOpenAI
from pathlib import Path

# Create an AzureOpenAI client
client = AzureOpenAI(
    azure_endpoint=YOUR_FOUNDRY_ENDPOINT,
    api_key=YOUR_FOUNDRY_KEY,
    api_version="2025-03-01-preview"
)

# Get the audio file
file_path = Path("speech.mp3")
audio_file = open(file_path, "rb")

# Use the model to transcribe the audio file
transcription = client.audio.transcriptions.create(
    model=YOUR_MODEL_DEPLOYMENT,
    file=audio_file,
    response_format="text"
)

print(transcription)

Saran dan Komentar

Apakah halaman ini membantu?