開發音訊型聊天應用程式

5 分鐘

若要開發使用多模式模型參與音訊型聊天的用戶端應用程式，您可以使用用於文字型聊天的相同基本技術。您需要連線至部署模型的端點，並使用該端點將訊息組成的提示提交至模型並處理回應。

主要差異在於音訊型聊天的提示包含含有文字內容項目和音訊內容項目的多部分使用者訊息。

提交至模型的多部分提示圖表。

包含多部分使用者訊息之提示的 JSON 表示如下所示：

{ 
    "messages": [ 
        { "role": "system", "content": "You are a helpful assistant." }, 
        { "role": "user", "content": [  
            { 
                "type": "text", 
                "text": "Transcribe this audio:" 
            },
            { 
                "type": "audio_url",
                "audio_url": {
                    "url": "https://....."
                }
            }
        ] } 
    ]
}

音訊內容項目可以是：

網站中音訊檔案的 URL。
二進位音訊數據

使用二進位數據提交本機音訊檔案時， audio_url 內容會以數據 URL 格式採用base64編碼值的形式：

{
    "type": "audio_url",
    "audio_url": {
       "url": "data:audio/mp3;base64,<binary_audio_data>"
    }
}

視模型類型及部署位置而定，您可以使用 Microsoft Azure AI 模型推斷或 OpenAI API 來提交音頻型提示。這些程式庫也提供特定語言的 SDK，以抽象化底層的 REST API。

在本課程模組中的後續練習中，您可以使用適用於 Azure AI 模型推斷 API 的 Python 或 .NET SDK 和 OpenAI API 來開發已啟用音訊的聊天應用程式。

意見反應

此頁面對您有幫助嗎？