適用於初學者的自訂翻譯工具

發行項
04/09/2024

自訂翻譯工具可讓您根據自己的業務、產業和特定領域的術語和文風來建立翻譯系統。定型和部署自訂系統很簡單，而且不需要任何程式設計技能。自訂翻譯系統可無縫整合到您現有的應用程式、工作流程和網站中，並且可以透過每天處理數十億次翻譯的雲端式 Microsoft 文字翻譯 API 服務在 Azure 上使用。

該平台可讓使用者建置並發佈將其他語言翻成英文，或將英文翻譯成其他語言的自訂翻譯系統。自訂翻譯工具支援超過 60 種語言，並會直接對應至 NMT 可用的語言。如需完整清單，請參閱翻譯工具語言支援。

自訂翻譯模型對我來說是否是正確的選擇？

經過妥善訓練的自訂翻譯模型可提供更精確的特定網域翻譯，因為它依賴先前翻譯的網域內文件來學習慣用的翻譯。翻譯工具會在上下文中使用這些詞彙和片語，以目標語言產生通順的翻譯，同時遵守與上下文相關的文法。

定型完整的自訂翻譯模型需要大量的資料。如果您沒有至少 10，000 句過去定型之文件的句子，您將無法定型完整的語言翻譯模型。不過，您可以選擇定型一個僅限字典的模型，或使用文字翻譯 API 所提供的高品質現成翻譯。

Screenshot illustrating the difference between custom and general models.

定型自訂翻譯模型會牽涉到什麼？

要建立自訂翻譯模型需要：

了解您的使用案例。
取得領域內的翻譯資料 (人工翻譯為佳)。
評估翻譯品質或目標語言翻譯的能力。

如何評估我的使用案例？

清楚了解您的使用案例和成功案例的樣子，是取得精準訓練資料的第一步。以下是幾項考量重點：

您想要的結果是什麼，該如何進行測量？
您的商務領域是什麼？
您有使用類似術語和文風的專業領域句子嗎？
您的使用案例是否牽涉到多個領域？如果是，您應該建立一個還是多個系統？
您是否有會影響到待用和傳輸中區域資料落地的要求？
目標使用者是位於一個還是多個區域中？

如何取得資料？

尋找網域內品質資料的工作會根據使用者分類而有所不同，通常是一項具有挑戰性的工作。以下是一些在評估哪些資料可以使用時，您可以先詢問自己的問題：

企業通常會有豐富的翻譯資料，該翻譯資料累積了數年來使用人工翻譯的結果。貴公司是否有先前的翻譯資料可供使用？
您是否有大量的單一語言資料？單一語言資料是只有一種語言的資料。如果是，您可以取得此資料的翻譯嗎？
您可以搜耙線上入口網站來收集來源句子和目標合成句子嗎？

我應該用什麼來當訓練資料？

來源	作用	要遵守的規則
雙語定型文件	教系統學習您的術語和文風。	自由一點。任何領域內的人工翻譯都比機器翻譯還要好。在訓練的同時新增和移除文件，並試著改善 BLEU 分數。
微調文件	訓練神經機器翻譯參數。	嚴格一點。以最能代表您未來要翻譯的內容來撰寫。
測試文件	計算 BLEU 分數。	嚴格一點。以最能代表您未來預計要翻譯的內容來撰寫測試文件。
片語字典	一律強制使用指定的翻譯。	嚴格一點。片語字典會區分大小寫，且會以您指定的方式對任何列出的單字或片語進行翻譯。在許多情況下，讓系統學習會比使用片語字典還要好。
句子字典	一律強制使用指定的翻譯。	嚴格一點。句子字典不會區分大小寫，比較適合在網域裡的簡短句子。假設要比對句子字典，整個提交的句子就必須符合原始字典項目。如果只有一部分的句子符合，則不會比對項目。

什麼是 BLEU 分數？

BLEU (雙語評估替補) 是一種演算法，可用來評估已從某種語言翻譯為另一種語言的文字精確度或正確性。自訂翻譯工具使用 BLEU 計量作為傳達翻譯正確性的一種方式。

BLEU 分數是介於零到 100 之間的數字。分數零表示低品質翻譯，其中翻譯中沒有任何項目符合參考。分數 100 指出與參考完全相同的完美翻譯。不需要取得分數 100：BLEU 40 到 60 之間的分數表示高品質翻譯。

閱讀更多資訊

如果我不提交微調或測試資料，會發生什麼事？

微調和測試例句是最能代表您未來預計要翻譯之內容的句子。如果您未提交任何微調或測試資料，自訂翻譯工具會自動從定型文件中排除句子來作為微調和測試資料。

系統產生	手動選取
方便。	為您未來的需求進行微調。
很好，如果您知道您的定型資料代表您打算翻譯的內容。	更自由地撰寫定型資料。
擴大或縮小領域時可以輕鬆重做。	允許更多資料和更佳的領域涵蓋率。
變更每個定型回合。	在重複的定型回合中保持固定

自訂翻譯工具如何處理訓練資料？

如要為訓練做準備，文件需進行一系列的處理程序和篩選步驟。這些步驟如下所述。篩選流程的知識可協助您了解顯示的句子數目，以及您可採取哪些步驟來準備定型文件，以便使用「自訂翻譯工具」進行定型。

句子對齊

如果文件不是 XLIFF、XLSX、TMX 或 ALIGN 格式，則「自訂翻譯工具」會逐句對齊來源與目標文件的句子。翻譯工具不會執行文件對齊，而是會依照您的文件命名慣例來尋找其他語言的相符文件。在來源文字中，「自訂翻譯工具」會嘗試在目標語言中尋找對應的句子。它會使用文件標記 (如內嵌 HTML 標記) 來協助對齊。

如果您看到來源與目標端文件中的句子數目大不相符，則您的文件可能未平行，或者無法對齊。您需要再次查看每一端上句子差異很大 (>10%) 的文件配對，以確保它們確實平行。
擷取微調和測試資料

微調和測試資料是選擇性的。若未提供，系統會從定型文件中取出適當百分比的資料，以用於微調和測試。移除動作會在定型的流程中同時進行。由於此步驟會在定型的流程中發生，因此上傳的文件不會受到影響。您可以在定型成功之後，在 [模型詳細資料] 頁面上查看每個資料類別 (定型、微調、測試和字典) 最終使用的句子數目。
長度篩選
- 移除任一邊只有一個字組的句子。
- 移除任一邊有超過 100 個字組的句子。中文、日文、韓文均豁免。
- 移除少於三個字元的句子。中文、日文、韓文均豁免。
- 移除具有超過 2000 個中文、日文、韓文字元的句子。
- 移除具有少於 1% 英數字元的句子。
- 移除包含超過 50 個字組的字典項目。
空白字元
- 以單一空格字元，取代任何空白字元序列，包括索引標籤和 CR/LF 序列。
- 移除句子中的前置或尾端空格。
句子結尾標點符號
- 以單一執行個體取代多個句子結尾標點符號字元。日文字元正規化。
- 將全形字母和數字轉換成半形字元。
未逸出的 XML 標記

將未逸出的標記轉換成逸出的標記：

標籤變成

< <

> >

& &
無效字元

「自訂翻譯」會移除包含 Unicode 字元 U+FFFD 的句子。字元 U+FFFD 表示編碼轉換失敗。

標籤	變成
<	<
>	>
&	&

上傳資料之前，我應該執行哪些步驟？

移除編碼無效的句子。
移除 Unicode 控制字元。
如果可以的話，請將句子對齊 (來源對目標)。
移除不符合來源和目標語言的來源和目標句子。
當來源和目標句子中混有不同語言時，請確定未翻譯的字組是刻意不翻譯的，例如組織和產品的名稱。
修正文法和印刷錯誤，以防止將這些錯誤傳授給您的模型。
雖然我們的定型流程可以處理包含多個句子的來源文句和目標文句，但還是建議用一個來源句子對應一個目標句子。

如何評估結果？

成功定型模型之後，您可以在 [模型詳細資料] 頁面上檢視模型的 BLEU 分數和基準模型的 BLEU 分數。我們使用同一組測試資料，以產生模型的 BLEU 分數和基準 BLEU 分數。此資料可協助您做出明智的決策，以決定哪一個模型最適合您的使用案例。

下一步

試用我們的快速入門

適用於初學者的自訂翻譯工具

自訂翻譯模型對我來說是否是正確的選擇？

定型自訂翻譯模型會牽涉到什麼？

如何評估我的使用案例？

如何取得資料？

我應該用什麼來當訓練資料？

什麼是 BLEU 分數？

如果我不提交微調或測試資料，會發生什麼事？

自訂翻譯工具如何處理訓練資料？

句子對齊

擷取微調和測試資料

長度篩選

空白字元

句子結尾標點符號

未逸出的 XML 標記

無效字元

上傳資料之前，我應該執行哪些步驟？

如何評估結果？

下一步

其他資源