提升效能與執行力

製作提示前,了解它們的運作方式非常重要。 系統首先會擷取任何基於擷取擴增產生 (RAG) 的資料,例如與提示相關聯的 Dataverse 資料表。 接著它會分析輸入文件。 最後,大型語言模型(LLM)處理收集的資訊,結合指令。

總輸入越大,回應時間越長,文件資料是最重要的貢獻者。

我們需要在提示限制式的背景下考慮以下幾點:

  • 命令執行時間限制為 100 秒。
  • 每個模型對合併輸入(包括指令、資料及模型回應)有最大允許大小。
  • 雖然我們定期增加 GPU 容量,但資源仍然有限,且是依區域和型號分配的。

因此,你可能會遇到執行逾時、令牌視窗限制、回應時間不一致或限速等問題。 以下做法可以幫助你減少這些問題。

選擇最有效率的模型來執行任務

較進階的型號通常反應較慢。 務必先從 Basic 模型開始,然後考慮標準模型,並只保留高級模型給真正需要的任務。

範例:在簡單的情感分析任務中使用高級模型是不必要的。

優化模型輸出長度

輸出長度是影響反應時間與成本的最大單一因素。

限制模型

在產生摘要或類似輸出時,請指定字數或句數等限制。 若無限制,模型回應的長度、複雜度與時間可能有所不同。

範例: 用50字總結。

優化 JSON 結構

使用 JSON 輸出時,透過簡化結構並減少鍵數來降低複雜度。

範例:這兩個輸出包含相同資訊,但輸出 2 明顯更精簡且更有效率。

輸出 1 輸出 2
{
  "extracted data from document":{
    "Contoso internal policy number": "value"
  }
}
{
  "policy":"value"
}

只考慮必要的資訊

避免要求模型產生不會被使用的資訊。 不必要的內容會增加成本和延遲。

舉例:只有當需要人工驗證或可審計時,才請求模型提供 理由

優化模型輸入的大小

輸入大小對回應時間與成本有適度影響,尤其是在處理文件或影像時。

避免重複

重複相同指令會增加成本,也可能讓模型感到困惑。

範例:避免提供多份傳達相同需求的指令。

將數字換算成美式格式......分析內容時,務必使用美國的標準

簡潔

模型能理解簡潔且直接的指令。 簡短的提示更容易處理,且通常能提供更精確的結果。

舉例:第二個提示詞更有效率。

  • 從此[內容]生成摘要。 摘要必須專業且以重點形式排列。
  • 用專業語氣的重點摘要[內容]。

減少輸入大小

輸入內容常常與分析無關(例如,HTML 標籤、重複的電子郵件簽名、模板文字)。 盡可能預先處理內容:擷取文字、乾淨格式,或在送往更複雜的提示前先摘要大段內容。

舉例:在分析帶有提示的電子郵件時,使用 「Html 轉文字 」的操作。

僅在必要時處理文件

文件處理成本高昂。 如果你重複使用同一份文件,請先擷取一次內容並重複使用,而不是每次都重新處理。

範例:在到範例中,[指導方針文件] 不應在每次執行時都進行處理,而應做為文字提供給提示。 「請參考這份[指引文件],從這份[待處理文件]中提取資訊。」

分段處理長文件

長文件可能導致超時或超出代幣限制。 若可能,請逐步、逐頁處理,或事先截斷不必要的頁面。 同樣適用於其他內容類型 (例如電子郵件),僅提供最新的對話。

範例:在 AI Builder 類別中使用 Recognize text in image or document 動作來取得頁面內容,並逐一對每一個頁面結果進行應用處理。

提示部分的屏幕截圖。

在套用檢索增強生成(RAG)時使用過濾器

從 Dataverse 表格等來源新增業務上下文時,僅檢索必要的欄位並套用篩選器以減少資料集。

範例:依 電腦裝置 家族篩選產品,然後僅取得 名稱 欄位,再在電子郵件中匹配產品名稱。