什麼是字典?
字典是已對齊的一組文件,用來指定片語或句子及其對應之翻譯的清單。 在定型中使用字典,當您想要 Translator 翻譯原始片語或句子的任何實例時,就會使用您在字典中提供的翻譯。 字典有時稱為字彙或詞彙。 您可以將字典視為針對您所列出的所有字詞,強制執行「複製並取代」。 此外,Microsoft 自訂翻譯工具服務會建置並使用自己的一般用途字典,以改善其翻譯品質。 不過,客戶提供的字典會優先採用,並且先搜尋以查詢單字或句子。
字典僅適用於語言組中有完整支援 Microsoft 一般神經網路模型作為後盾的專案。 檢視語言的完整清單。
片語字典
片語字典區分大小寫。 這是完全符合尋找和取代作業。 當您在定型模型中包含片語字典,則其中所列的任何單字或片語都會以指定的方式翻譯。 句子的其餘部分會如往常般翻譯。 您可以藉由在原始和目標檔案內提供相同的未翻譯片語,使用片語字典來指定不應翻譯的片語。
動態字典
動態字典功能可讓您自訂特定詞彙或片語的翻譯。 您可以根據自己獨特的語意、語言或特定需求來定義自訂翻譯。
神經片語字典
神經片語字典可擴充動態字典和標準片語字典功能。 動態和片語字典都可讓您藉由為特定詞彙或片語提供自己的翻譯,來自訂翻譯輸出。 使用自訂翻譯工具啟用神經片語字典時,動態字典功能會搭配翻譯工具 API 使用。 神經片語字典可讓機器翻譯模型同時調整字詞和上下文,來改善包含一或多個詞彙翻譯的句子之翻譯品質。 這項調整會產生更加流暢的翻譯。 同時,它會保留高詞彙翻譯精確度。
句子字典
句子字典不區分大小寫。 句子字典可讓您針對原始句子指定精確的目標翻譯。 假設要比對句子字典,整個提交的句子就必須符合原始字典項目。 以標點符號結尾的來源字典項目會在比對期間遭到忽略。 如果只有一部分的句子符合,則不會比對項目。 當偵測到比對時,就會傳回句子字典的目標項目。
僅字典定型
您可以只使用字典資料來定型模型。 若要這麼做,請只選取您要包含的字典文件 (或多個字典文件),並選取 [建立模型]。 由於這是僅字典定型,因此不需要最低數目的定型句子。 您的模型通常會比標準定型更快完成定型。 產生的模型會使用 Microsoft 翻譯基準模型加上您新增的字典來翻譯。 您不會收到測試報告。
注意
自訂翻譯工具並不會將句子對齊字典檔案,因此在您的字典文件中務必要有相同數目的原始和目標片語/句子,如此才會精確對齊。
建議
字典不是使用定型資料來定型模型的替代方案。 建議您讓系統從定型資料中學習,以獲得更好的結果。 不過,當句子或複合名詞必須逐字翻譯時,請使用片語字典。
您應該謹慎使用片語字典。 取代句子中的片語時,會失去該句子的上下文或使其受到限制,而影響句子其餘部分的翻譯。 如此一來,即使句子中的片語或單字按照提供的字典翻譯,但整體句子的翻譯品質通常會下降。
片語字典非常適合用於複合名詞,例如產品名稱 ("Microsoft SQL Server")、專有名稱 (「漢堡市」),或是產品功能 (「樞紐分析表」)。 通常不適合用於動詞或形容詞,因為那些字詞會受到來源語言或目標語言上下文的高度影響。 最佳做法是避免對複合名詞以外的任何內容使用片語字典項目。
當您使用片語字典時,大小寫和標點符號很重要。 字典項目區分大小寫和標點符號。 只有當輸入句子中使用的單字及片語與來源字典檔案中所指定的大小寫和標點符號完全相符時,自訂翻譯工具才會比對出這些單字和片語。 翻譯也會反映目標字典檔案中提供的大小寫和標點符號。
範例
- 假設您要訓練英文翻譯成西班牙文系統使用片語字典,並在來源檔案中指定 SQL server,且在目標檔案中指定 Microsoft SQL Server。 當您要求翻譯含有 SQL server 片語的句子時,自訂翻譯工具會比對字典項目,且翻譯將會包含 Microsoft SQL Server。
- 當您要求翻譯的句子含有相同片語但與來源檔案中的樣式不符合時 (例如 sql server、sql Server 或 SQL Server),系統就不會從字典傳回相符項目。
- 翻譯會遵循片語字典中指定的目標語言規則。
如需神經片語字典的詳細資訊,請參閱神經字典指引和建議。
若您使用句子字典,則會忽略句子結尾的標點符號。
範例
- 如果您的來源字典包含「This sentence ends with punctuation!」,則包含「This sentence ends with punctuation」的任何翻譯要求都會相符。
字典應該包含唯一的來源字行。 如果來源字行 (單字、片語或句子) 在字典檔案中出現一次以上,系統一律會使用提供的最後一個項目,並在找到相符項目時傳回目標。
請避免在來源字典檔案中新增由含數字或由二或三個字母所組成的單字,例如縮略字。