分享方式:


自訂翻譯工具主要詞彙

下表提供您在使用 自訂翻譯工具時可能找到的重要詞彙清單。

單字或片語 定義
原始語言 來源語言是您想要轉換成另一種語言的起始語言(「目標」)。
目標語言 目標語言是您希望機器翻譯在收到來源語言之後提供的語言。
單一語式檔案 單一語言檔案具有不與使用不同語言的另一個檔案配對的單一語言。
平行檔案 平行檔案是兩個檔案與對應文字的組合。 一個檔案具有來源語言。 另一個具有目標語言。
句子對齊方式 平行數據集必須對齊兩種語言中代表相同文字的句子對句子。 例如,在來源平行檔案中,第一個句子理論上應該對應至目標平行檔案中的第一個句子。
對齊的文字 檔案驗證最重要的步驟之一是對齊平行檔中的句子。 不同語言會以不同的方式表示事物。 此外,不同的語言也有不同的單字順序。 此步驟會執行將句子與相同內容對齊的工作,以便用於定型。 低句子對齊表示其中一個或兩個檔案可能有問題。
斷詞/中斷 斷詞是標記單字之間界限的函式。 許多撰寫系統會使用空格來表示字組之間的界限。 斷詞是指移除在上一個步驟中單字之間插入的任何可見標記。
分隔符號 分隔符是句子分成區段或分隔句子之間邊界的方式。 例如,在英文空格中,分隔單字、冒號和分號分隔子句和句號分隔句子。
訓練檔案 定型檔案可用來教導機器翻譯系統如何從一種語言(來源)對應至目標語言(目標)。 您提供的數據越多,系統執行得越好。
微調檔案 這些檔案通常會隨機衍生自定型集(如果您未選取微調集)。 系統會自動選取句子,並用來調整系統,並確保其正常運作。 如果您想要建立一般用途的翻譯模型並建立您自己的微調檔案,請確定它們是跨網域的隨機句子集
測試檔案 這些檔案通常是衍生的檔案,從定型集隨機選取(如果您未選取任何測試集)。 這些句子的目的是要評估翻譯模型的精確度。 若要確保系統正確翻譯這些句子,您可能想要建立測試集並將其上傳至翻譯工具。 這麼做可確保句子用於系統的評估中(分數的 BLEU 產生)。
下拉式檔案 檔案的類型,來源和翻譯的句子包含在相同的檔案中。 支援的檔案格式 (TMX、、XLIFFXLFICIXLSX)。
封存盤案 包含其他檔案的檔案。 支援的檔案格式(zip、gz、tgz)。
BLEU 得分 BLEU 是評估翻譯模型的「精確度」或精確度的業界標準方法。 雖然有其他評估方法存在,Microsoft Translator 會依賴 BLEU 方法向專案擁有者報告精確度。