本文包含 Azure AI 自定義翻譯工具常見問題的解答。
自訂翻譯工具目前有哪些限制?
目前在檔案大小、模型定型和部署模型方面有一些限制。 在設定您的訓練以建置自訂翻譯工具中的模型時,請留意這些限制。
- 要翻譯的檔案必須小於 100 MB。
- 不支援單一語言資料。 單一語言檔案具有不與使用不同語言的另一個檔案配對的單一語言。
應於何時要求部署用於訓練的翻譯系統?
可能需經過數次定型後,才能為您的專案建立最佳的翻譯系統。 如果 BLEU
分數和/或測試結果不盡如人意,您可能想要嘗試使用更多定型數據或更仔細篩選的數據。 在設計微調集和測試集時,您應該嚴格且小心。 確定您的集合完全代表您所要翻譯材料的術語和樣式。 您在撰寫定型資料時可較為寬鬆,並嘗試使用不同的選項。 當您對系統測試結果中的翻譯感到滿意,且不再新增資料來改善訓練的系統,即可要求進行系統部署。
在一個專案中可部署多少個定型的系統?
每個專案只能部署一個定型的系統。 可能需要經過數次定型才能為您的專案建立適當的翻譯系統,建議您要求部署讓您獲得最佳結果的定型。 您可以利用 BLEU
分數 (愈高愈好),並在判定翻譯品質適合進行部署之前先諮詢檢閱者,來決定訓練的品質。
定型應會在何時完成部署?
部署通常可在一小時內完成。
如何存取已部署的系統?
可以透過 Microsoft 翻譯文字 API v3 來存取已部署的系統,指定 CategoryID 即可。 如需翻譯工具文字 API 的詳細資訊,請參閱 API 參考網頁。
如果我的資料已將句子對齊,如何略過對齊和斷句?
自訂翻譯工具會略過檔案和擴展名為文本檔的TMX
句子對齊和句子中斷.align
。
.align
檔案可讓使用者選擇對已適當對齊、且不需要進一步處理的檔案,略過自訂翻譯工具的斷句和句子對齊程序。 我們建議,.align
副檔名僅應使用於已適當對齊的檔案。
如果已擷取的句數不符合具有相同基底名稱的兩個檔案,自訂翻譯工具仍會對 .align
檔案執行句子對齊工具。
我嘗試上傳 [翻譯記憶交換 (TMX)] 檔案,但顯示「文件處理失敗」
請確定 TMX 符合 TMX 1.4b 規格。