共用方式為


平行文件中的句子配對與對齊

上傳文件之後,平行文件中的句子會配對或對齊。 自訂翻譯工具會報告其可以在每個資料集中配對為「對齊句子」的數目。

配對和對齊程序

自訂翻譯工具會一次一個句子地學習句子翻譯。 此工具會讀取來源文字中的句子,然後從目標文字讀取這個句子的翻譯。 接著將這兩個句子中的字組和片語彼此對齊。 此程序可讓自訂翻譯工具為一個句子中的單字和片語,以及此句子翻譯中的同等單字和片語建立對應。 對齊功能會嘗試確保系統是在彼此的翻譯句子上進行訓練。

預先對齊的文件

如果您知道您有平行文件,您可能會提供預先對齊的文字檔案來覆寫句子對齊。 您可以將這兩份文件中的所有句子擷取到文字檔,並組織成每一行一個句子,然後以 .align 副檔名來上傳檔案。 .align 副檔名會告知自訂翻譯工具應該略過句子對齊。

為了獲得最佳結果,請嘗試確定您的檔案內容是每行一個句子。 句子中不要有換行字元,這會導致對齊不良。

建議的最小句子數目

為了成功定型,下表顯示了每個文件類型所需的最小句子數目。 這項限制是一種防護機制,可確保平行句子包含足夠的唯一字彙可成功定型翻譯模型。 通用準則是,具有人工翻譯品質的領域內平行句子愈多,應該就愈能產生高品質的模型。

Document type 建議的最小句子計數 最大句子計數
訓練 10,000 沒有上限
調整 500 2,500
測試 500 2,500
Dictionary 0 250,000

注意

  • 若未符合定型的最小句子計數 (10,000),定型將不會啟動,且將會失敗。
  • 微調和測試是選擇性的。 若未提供,系統會從定型中移除適當的百分比,以用於驗證和測試。
  • 您可以只使用字典資料來定型模型。 請參閱什麼是字典
  • 如果您的字典包含超過 250,000 個句子,則文件翻譯功能將是較佳的選擇。 請參閱文件翻譯
  • 免費 (F0) 訂用帳戶定型的字元數上限為 2,000,000。

下一步