在 製作提示前,了解它們的運作方式非常重要。 系統首先會擷取任何基於擷取擴增產生 (RAG) 的資料,例如與提示相關聯的 Dataverse 資料表。 接著它會分析輸入文件。 最後,大型語言模型(LLM)處理收集的資訊,結合指令。
總輸入越大,回應時間越長,文件資料是最重要的貢獻者。
我們需要在提示限制式的背景下考慮以下幾點:
- 命令執行時間限制為 100 秒。
- 每個模型對合併輸入(包括指令、資料及模型回應)有最大允許大小。
- 雖然我們定期增加 GPU 容量,但資源仍然有限,且是依區域和型號分配的。
因此,你可能會遇到執行逾時、令牌視窗限制、回應時間不一致或限速等問題。 以下做法可以幫助你減少這些問題。
選擇最有效率的模型來執行任務
較進階的型號通常反應較慢。 務必先從 Basic 模型開始,然後考慮標準模型,並只保留高級模型給真正需要的任務。
範例:在簡單的情感分析任務中使用高級模型是不必要的。
優化模型輸出長度
輸出長度是影響反應時間與成本的最大單一因素。
限制模型
在產生摘要或類似輸出時,請指定字數或句數等限制。 若無限制,模型回應的長度、複雜度與時間可能有所不同。
範例: 用50字總結。
優化 JSON 結構
使用 JSON 輸出時,透過簡化結構並減少鍵數來降低複雜度。
範例:這兩個輸出包含相同資訊,但輸出 2 明顯更精簡且更有效率。
| 輸出 1 | 輸出 2 |
|---|---|
{"extracted data from document":{"Contoso internal policy number": "value"}} |
{"policy":"value"} |
只考慮必要的資訊
避免要求模型產生不會被使用的資訊。 不必要的內容會增加成本和延遲。
舉例:只有當需要人工驗證或可審計時,才請求模型提供 理由 。
優化模型輸入的大小
輸入大小對回應時間與成本有適度影響,尤其是在處理文件或影像時。
避免重複
重複相同指令會增加成本,也可能讓模型感到困惑。
範例:避免提供多份傳達相同需求的指令。
將數字換算成美式格式......分析內容時,務必使用美國的標準
簡潔
模型能理解簡潔且直接的指令。 簡短的提示更容易處理,且通常能提供更精確的結果。
舉例:第二個提示詞更有效率。
- 從此[內容]生成摘要。 摘要必須專業且以重點形式排列。
- 用專業語氣的重點摘要[內容]。
減少輸入大小
輸入內容常常與分析無關(例如,HTML 標籤、重複的電子郵件簽名、模板文字)。 盡可能預先處理內容:擷取文字、乾淨格式,或在送往更複雜的提示前先摘要大段內容。
舉例:在分析帶有提示的電子郵件時,使用 「Html 轉文字 」的操作。
僅在必要時處理文件
文件處理成本高昂。 如果你重複使用同一份文件,請先擷取一次內容並重複使用,而不是每次都重新處理。
範例:在到範例中,[指導方針文件] 不應在每次執行時都進行處理,而應做為文字提供給提示。 「請參考這份[指引文件],從這份[待處理文件]中提取資訊。」
分段處理長文件
長文件可能導致超時或超出代幣限制。 若可能,請逐步、逐頁處理,或事先截斷不必要的頁面。 同樣適用於其他內容類型 (例如電子郵件),僅提供最新的對話。
範例:在 AI Builder 類別中使用 Recognize text in image or document 動作來取得頁面內容,並逐一對每一個頁面結果進行應用處理。
在套用檢索增強生成(RAG)時使用過濾器
從 Dataverse 表格等來源新增業務上下文時,僅檢索必要的欄位並套用篩選器以減少資料集。
範例:依 電腦裝置 家族篩選產品,然後僅取得 名稱 欄位,再在電子郵件中匹配產品名稱。