在 Foundry Tools 中尋找關於 Azure 語言中自訂 NER 概念與情境的常見問題解答。
如何開始使用此服務?
如需詳細資訊, 請參閱 我們的 快速入門 或 如何建立專案。
服務限制有哪些?
如需詳細資訊, 請參閱服務限制。
需要多少個標記的檔案?
一般來說,多樣化且具代表性的標記資料可產生更好的結果,因為標記是以精確、一致且完整的方式進行。 模型沒有固定的被標記樣本數量來確保其表現良好。 效能與您的結構描述以及結構描述的模糊性息息相關。 模擬兩可的實體類型需要更多標籤。 效能也取決於您標記的品質。 每個實體建議的標記執行個體數目是 50 個。
訓練模型需要多長時間?
訓練過程可能需要很長的時間。 根據粗略估計,針對合併長度為 12,800,000 個字元的多個檔案,預期定型時間為 6 小時。
如何以程式設計方式建置自訂模型?
備註
目前您只能使用 REST API 或 Language Studio 建置模型。
您可以使用 REST API 建置自訂模型。 依照此快速入門開始建立專案,並透過 API 建立模型,以取得如何呼叫撰寫 API 的範例。
當您準備好要開始使用模型進行預測時,可以使用 REST API 或用戶端程式庫。
建議的 CI/CD 流程為何?
以下是您在 Microsoft Foundry 中採取的行動清單:
- 在單一專案內的相同資料集上訓練多個模型。
- 檢視模型的效能。
- 部署和測試您的模型,並在資料中新增或移除標籤。
- 選擇資料集分割成訓練集和測試集的方式。
您的資料可以隨機分割成訓練集和測試集,但這表示模型評估可能不是基於相同的測試集,因此結果無法比較。 我們建議您開發自己的測試集,並使用它來評估這兩個模型,以準確衡量改進。
請務必檢閱服務限制,以瞭解每個專案允許的定型模型數目上限。
模型分數的高低是否保證在實際執行環境中效能的優劣?
模型評估不一定是完整的。 範圍取決於下列因素:
- 測試集的大小。 如果測試集太小,則好/壞分數無法代表模型的實際效能。 此外,如果測試集中缺少或代表性不足的特定實體類型,則會影響模型效能。
- 資料的多樣性。 如果您的資料僅包含有限數量的案例或您在生產中預期的文字範例,則您的模型可能不會遇到所有可能的情況。 因此,模型在面對不熟悉的場景時可能會表現不佳。
- 資料中的表現形式。 如果用來定型模型的資料集不代表將在生產環境中引進模型的資料,則模型效能會受到很大影響。
如需詳細資訊, 請參閱資料選取和結構描述設計。
如何提升模型效能?
- 檢視模型混淆矩陣。 如果您注意到某個實體類型經常未能正確預測,請考慮為此類別新增更多標記的實例。
當兩種不同的實體類型經常被預測為彼此時,表示綱目缺乏清晰度。 若要改善效能,您應該考慮將這兩種實體類型合併為單一的統一類型。 如果預測過程中經常混淆兩個實體類型,則此結果表明您的模式可能存在歧義。 將它們合併為一個實體類型有助於提高整體模型準確性。
審核測試集預測 (部分內容可能是機器或 AI 翻譯)。 如果其中一個實體類型的標記實例比其他實體類型多很多,則您的模型可能會偏向此類型。 將更多資料新增至其他實體類型,或從具有主導性的類型中移除範例。
深入了解資料選取和結構描述設計。
檢閱您的測試集。 檢閱預測的實體以及標記的實體,並更清楚地了解模型的準確性。 此比較可協助您判斷是否需要調整結構描述或標籤集。
為什麼我會在重新定型模型時獲得不同的結果?
當您定型模型時,可以判斷是否要將資料隨機分割成定型集和測試集。 如果您選擇繼續,則無法保證模型評估是在相同的測試集上執行,這表示結果可能無法直接比較。 這樣做,您可能會在不同的測試集上評估模型,從而無法可靠地比較結果。
如果您要重新訓練相同的模型,測試集將保持一致,但您可能會注意到模型的預測略有變化。 問題的出現是因為訓練模型缺乏足夠的穩健性。 此結果取決於您的資料代表不同案例的程度、資料點的差異程度,以及資料標記的整體品質。 有幾個因素會影響模型的效能。 模型的穩健性、資料集的獨特性和多樣性以及分配給資料的標籤的精確性和一致性都發揮著重要作用。 為了獲得最佳結果,您必須確保您的資料集不僅準確地代表目標域,而且還提供獨特的範例,並且所有標籤在整個資料中都以一致性和準確性應用。
如何取得不同語言的預測?
首先,您必須在建立專案時啟用多語系選項,或者您可以稍後從 [專案設定] 頁面啟用該選項。 定型並部署模型之後,您就可以開始以多種語言查詢。 不同語言的結果可能相異。 若要提高任何語言的正確性,請以該語言將更多標記的實例新增至專案,這樣可以讓訓練好的模型接觸到該語言的更多語法結構。
我已將模型定型,但無法進行測試
您必須先部署模型,才能進行測試。
如何使用我的定型模型進行預測?
部署模型之後,您可以使用 REST API 或用戶端程式庫呼叫預測 API。
資料隱私權和安全性
您的資料只會儲存在您的 Azure 儲存體帳戶中。 自訂 NER 只有在訓練期間,才擁有從該帳戶讀取的存取權。 自訂 NER 使用者可完全控制透過 Foundry 或透過 REST API 程式化方式瀏覽、匯出或刪除任何使用者內容。 欲了解更多資訊, 請參閱語言相關資料、隱私與安全
如何複製我的專案?
若要複製您的專案,您需要使用匯出 API 匯出專案資產,然後將其匯入新專案。 請參閱兩者操作的REST API參考文件。