分享方式:


自訂翻譯工具主要詞彙

下表提供您在使用 自訂翻譯工具時可能找到的重要詞彙清單。

單字或片語 定義
原始語言 來源語言是您想要轉換成另一種語言的起始語言(「目標」)。
目標語言 目標語言是您希望機器翻譯在收到來源語言之後提供的語言。
單一語式檔案 單一語言檔案具有不與使用不同語言的另一個檔案配對的單一語言。
平行檔案 平行檔案是兩個檔案與對應文字的組合。 一個檔案具有來源語言。 另一個具有目標語言。
句子對齊方式 平行數據集必須將句子對齊兩種語言中代表相同文字的句子。 例如,在來源平行檔案中,第一個句子理論上應該對應至目標平行檔案中的第一個句子。
對齊的文字 檔案驗證最重要的步驟之一是對齊平行檔中的句子。 不同語言會以不同的方式表示事物。 此外,不同的語言也有不同的單字順序。 此步驟會執行將句子與相同內容對齊的工作,以便用於定型。 低句子對齊表示其中一個或兩個檔案可能有問題。
斷詞/中斷 斷詞是標記單字之間界限的函式。 許多撰寫系統會使用空格來表示字組之間的界限。 斷詞是指移除在上一個步驟中單字之間可能插入的任何可見標記。
分隔符號 分隔符是句子分成區段或分隔句子之間邊界的方式。 例如,在英文空格中,分隔單字、冒號和分號分隔子句和句號分隔句子。
訓練檔案 定型檔案可用來教導機器翻譯系統如何從一種語言(來源)對應至目標語言(目標)。 您提供的數據越多,系統就會執行得越好。
微調檔案 這些檔案通常會隨機衍生自定型集(如果您未選取微調集)。 系統會自動選取句子,並用來調整系統,並確保其正常運作。 如果您想要建立一般用途的翻譯模型並建立您自己的微調檔案,請確定它們是跨網域的隨機句子集
測試檔案 這些檔案通常是衍生的檔案,從定型集隨機選取(如果您未選取任何測試集)。 這些句子的目的是要評估翻譯模型的精確度。 若要確保系統正確翻譯這些句子,您可能想要建立測試集並將其上傳至翻譯工具。 這樣做可確保句子用於系統的評估中(產生BLEU分數)。
下拉式檔案 檔案的類型,來源和翻譯的句子包含在相同的檔案中。 支援的檔案格式(TMX、XLIFF、XLF、ICI 和 XLSX)。
封存盤案 包含其他檔案的檔案。 支援的檔案格式(zip、gz、tgz)。
BLEU分數 BLEU是評估翻譯模型的「精確度」或精確度的業界標準方法。 雖然有其他評估方法存在,但 Microsoft 翻譯工具依賴BLEU方法來向專案擁有者報告精確度。