共用方式為


什麼是平行處理的文件?

平行文件是配對文件,其中的一份文件是另一份文件的翻譯。 該配對中的一份文件會包含原始語言的句子,而另一分文件會包含已翻譯成目標語言的這些句子。 無論哪種語言標示為「來源」、哪種語言標示為「目標」,您都可使用平行文件以任一方向訓練翻譯系統。

需求

您至少需要有 10,000 個唯一對齊的平行句子以便定型系統。 這項限制是一種防護機制,可確保平行句子包含足夠的唯一字彙可成功定型翻譯模型。 最佳做法是持續新增更多平行內容並重新訓練,以改善翻譯系統的品質。 如需詳細資訊,請參閱句子對齊

Microsoft 要求上傳到自訂翻譯工具的文件不可違反協力廠商的著作權或智慧財產權。 如需詳細資訊,請參閱使用規定。 使用入口網站上傳文件,並不會改變文件本身智慧財產權的歸屬。

使用平行處理的文件

系統會使用平行處理的文件來:

  1. 了解在兩個語言之間通常會以何種方式對應單字、片語和句子。

  2. 了解如何根據前後的片語處理適當的內容。 一個字在另一種語言中不一定都會翻譯為同一個字。

最佳做法是,確定文件的來源和目標語言版本之間有 1 對 1 的句子對應性。

如果您的專案屬於特定領域 (類別),您的文件即應與在該類別內的詞彙一致。 最終的翻譯系統品質,取決於文件集中的句子數目和句子的品質。 您的文件中有越多範例提供某個字在您類別中的特定用法,系統在翻譯期間的作業成效就越理想。

上傳的文件可供您在個別的工作區中私用,且您可以依需求將其用於數量不限的專案或定型中。 從文件中擷取的句子會以 Unicode 純文字檔案的格式,分開儲存在存放庫中,並可由您進行刪除。 請勿使用自訂翻譯工具作為文件存放庫,否則您已上傳的文件將無法以其先前上傳的格式進行下載。

下一步