ถอดเสียงคําพูด

3 นาที

Tip

ดูแท็บ ข้อความและรูปภาพ สําหรับรายละเอียดเพิ่มเติม!

การถอดเสียงพูดหรือการ ถอดเสียงเป็นข้อความเกี่ยวข้องกับการส่งเนื้อหาเสียงไปยังโมเดล ซึ่งจะตอบสนองด้วยการถอดเสียงแบบข้อความของคําพูดในแหล่งเสียง

โมเดลที่สนับสนุนการดําเนินการแปลงคําพูดเป็นข้อความ ได้แก่:

GPT-4O-ถอดเสียง
GPT-4O-มินิถอดเสียง
GPT-4O-ถอดเสียง-ไดอารี่

Note

ความพร้อมใช้งานของรุ่นจะแตกต่างกันไปตามภูมิภาค ตรวจสอบ ตารางความพร้อมใช้งานระดับภูมิภาคของแบบจําลอง ในเอกสารประกอบของ Microsoft Foundry

การใช้โมเดลการแปลงคําพูดเป็นข้อความ

หากต้องการใช้โมเดลการแปลงคําพูดเป็นข้อความในแอปพลิเคชันของคุณเอง คุณสามารถใช้ไคลเอ็นต์ AzureOpenAI ใน OpenAI SDK เพื่อเชื่อมต่อกับปลายทางสําหรับทรัพยากร Microsoft Foundry ของคุณ และอัปโหลดเนื้อหาของไฟล์เสียงไปยังโมเดลสําหรับการถอดความ

from openai import AzureOpenAI
from pathlib import Path

# Create an AzureOpenAI client
client = AzureOpenAI(
    azure_endpoint=YOUR_FOUNDRY_ENDPOINT,
    api_key=YOUR_FOUNDRY_KEY,
    api_version="2025-03-01-preview"
)

# Get the audio file
file_path = Path("speech.mp3")
audio_file = open(file_path, "rb")

# Use the model to transcribe the audio file
transcription = client.audio.transcriptions.create(
    model=YOUR_MODEL_DEPLOYMENT,
    file=audio_file,
    response_format="text"
)

print(transcription)

คำติชม

หน้านี้มีประโยชน์หรือไม่