RequestAudioContentPart interface

جزء محتوى صوتي لطلب. يدعم ذلك فقط النماذج الفورية (مثل gpt-realtime). بالنسبة للنماذج النصية، استخدم input_text بدلا من ذلك.

يمتد

الخصائص

audio

بايتات الصوت المشفرة بنظام base64، سيتم تحليلها حسب التنسيق المحدد في تكوين نوع صوت إدخال الجلسة. هذا الوضع الافتراضي يبنى PCM 16-بت 24kHz أحادي إذا لم يتم تحديده.

transcript

نص اختياري للمحتوى الصوتي. لا يتم إرفاقه إلى النموذج، بل سيتم إرفاقه مع عنصر الرسالة للرجوع إليه.

type

تفاصيل الخاصية

audio

بايتات الصوت المشفرة بنظام base64، سيتم تحليلها حسب التنسيق المحدد في تكوين نوع صوت إدخال الجلسة. هذا الوضع الافتراضي يبنى PCM 16-بت 24kHz أحادي إذا لم يتم تحديده.

audio: string

قيمة الخاصية

string

transcript

نص اختياري للمحتوى الصوتي. لا يتم إرفاقه إلى النموذج، بل سيتم إرفاقه مع عنصر الرسالة للرجوع إليه.

transcript?: string

قيمة الخاصية

string

type

type: "input_audio"

قيمة الخاصية

"input_audio"