什麼是文件翻譯?

文件翻譯是 Azure AI 翻譯工具服務的雲端式機器翻譯功能。 您可以翻譯所有支援的語言和方言的多個複雜文件,同時保留原始文件結構和資料格式。 文件翻譯 API 支援兩項翻譯工作:

  • 非同步批次文件翻譯支援多個文件和大型檔案的非同步處理。 批次翻譯流程需要具有來源和翻譯文件容器的 Azure Blob 儲存體帳戶。

  • 同步文件翻譯支援單一檔案翻譯的同步處理。 檔案翻譯流程不需要 Azure Blob 儲存體帳戶。 最終回應包含已翻譯的文件,並會直接傳回給呼叫用戶端。

非同步批次轉譯

使用非同步文件處理來翻譯多個文件和大型檔案。

批次重要功能

功能 描述
翻譯大型檔案 以非同步方式翻譯整份文件。
翻譯許多檔案 翻譯所有支援語言和方言的多個檔案,同時保留文件結構和資料格式。
保留來源檔案簡報 翻譯檔案,同時保留原始的版面配置和格式。
套用自訂翻譯 使用一般和自訂翻譯模型來翻譯文件。
套用自訂字彙 使用自訂字彙翻譯文件。
自動偵測文件語言 讓文件翻譯服務判斷文件的語言。
翻譯內容包含多種語言的文件 您可以使用自動偵測功能,將內容包含多種語言的文件翻譯成您的目標語言。

批次開發選項

您可以使用 REST API 或用戶端程式庫 SDK,將文件翻譯新增至您的應用程式:

  • REST API。 是一種語言中立的介面,可讓您建立 HTTP 要求和授權標頭來翻譯文件。

  • 用戶端程式庫 SDK 是語言特定的類別、物件、方法和程式碼,您可以在專案中新增參考即可快速使用。 文件翻譯目前有 C#/.NETPython 的程式設計語言支援。

批次支援的檔案格式

取得支援的文件格式方法會傳回文件翻譯服務所支援的文件格式清單。 此清單包含通用副檔名,以及使用上傳 API 時的 content-type。

檔案類型 副檔名 描述
Adobe PDF pdf 可攜式文件檔案格式。 文件翻譯會使用光學字元辨識 (OCR) 技術來擷取和轉譯掃描 PDF 文件中的文字,同時保留原始版面配置。
逗點分隔值 csv 試算表程式所使用的逗點分隔原始資料檔案。
HTML html, htm 超文字標記語言。
當地語系化交換檔案格式 xlf 平行文件格式,翻譯記憶體系統的匯出。 使用的語言定義於檔案內。
Markdown markdown, mdown, mkdn, md, mkd, mdwn, mdtxt, mdtext, rmd 用於建立格式化文字的輕量標記語言。
M​HTML mthml, mht 用來合併 HTML 程式碼與其附屬資源的網頁封存格式。
Microsoft Excel xls, xlsx 用於資料分析和文件的試算表檔案。
Microsoft Outlook msg 在 Microsoft Outlook 內建立或儲存的電子郵件訊息。
Microsoft PowerPoint ppt, pptx 用來以投影片格式顯示內容的簡報檔案。
Microsoft Word doc, docx 文字文件檔案。
OpenDocument 文字 odt 開放原始碼的文字文件檔案。
OpenDocument 簡報 odp 開放原始碼展示檔。
OpenDocument 試算表 ods 開放原始碼試算表檔案。
RTF 文字格式 rtf 包含格式的文字文件。
定位字元分隔值/TAB tsv/tab 試算表程式所使用的逗點分隔原始資料檔案。
Text txt 未格式化的文字文件。

批次舊版檔案類型

在文件翻譯期間會保留來源檔案類型,但有下列例外

來源檔案副檔名 翻譯檔案的副檔名
.doc, .odt, .rtf, .docx
.xls, .ods .xlsx
.ppt, .odp .pptx

批次支援的詞彙格式

文件翻譯支援下列詞彙檔案類型:

檔案類型 副檔名 描述
逗點分隔值 csv 試算表程式所使用的逗點分隔原始資料檔案。
當地語系化交換檔案格式 xlfxliff 平行文件格式,匯出翻譯記憶體系統,所使用語言是在檔案中定義。
定位字元分隔值/TAB tsv, tab 試算表程式所使用的逗點分隔原始資料檔案。

同步翻譯

使用同步翻譯處理將文件傳送為 HTTP 要求本文的一部分,並在 HTTP 回應中接收翻譯的文件。

同步翻譯重要功能

功能 描述
翻譯單頁檔案 同步要求只接受單一文件作為輸入。
保留來源檔案簡報 翻譯檔案,同時保留原始的版面配置和格式。
套用自訂翻譯 使用一般和自訂翻譯模型來翻譯文件。
套用自訂字彙 使用自訂字彙翻譯文件。
單一語言翻譯 在單一支援的語言來回翻譯。
自動偵測文件語言 讓文件翻譯服務判斷文件的語言。
套用自訂字彙 使用自訂字彙翻譯文件。

同步支援的檔案格式

檔案類型 副檔名 內容類型 描述
純文字 .txt text/plain 未格式化的文字文件。
定位字元分隔值 .txv
.tab
text/tab-separated-values 文字檔案格式,使用定位字元來分隔值以及使用新行來分隔記錄。
逗點分隔值 .csv text/csv 使用逗點作為值之間分隔符號的文字檔案格式。
超文字標記語言 .html
.htm
text/html HTML 是用來建構網頁和內容的標準標記語言。
M​HTML .mthml
.mht
message/rfc822
@application/x-mimearchive
@multipart/related
網頁封存檔案格式。
Microsoft PowerPoint .pptx application/vnd.openxmlformats-officedocument.presentationml.presentation 用於 PowerPoint 投影片簡報的 XML 檔案格式。
Microsoft Excel .xlsx application/vnd.openxmlformats-officedocument.spreadsheetml.sheet 用於 Excel 試算表的 XML 檔案格式。
Microsoft Word .docx application/vnd.openxmlformats-officedocument.wordprocessingml.document 用於 Word 文件的 XML 檔案格式。
Microsoft Outlook .msg application/vnd.ms-outlook 用於儲存 Outlook 郵件訊息物件的檔案格式。
XML 當地語系化交換 .xlf
.xliff
application/xliff+xml 廣泛用於翻譯和當地語系化軟體處理的標準化 XML 檔案格式。

同步支援的詞彙格式

文件翻譯支援下列詞彙檔案類型:

檔案類型 副檔名 描述
逗點分隔值 csv 試算表程式所使用的逗點分隔原始資料檔案。
XmlLocalizationInterchange xlfxliff XML 格式,其設計目的是標準化當地語系化程序期間傳遞資料的方式。
TabSeparatedValues tsv, tab 試算表程式所使用的逗點分隔原始資料檔案。

文件翻譯要求限制

如需有關 Azure AI 翻譯工具服務要求限制的詳細資訊,請參閱文件翻譯要求限制

文件翻譯資料落地

文件翻譯資料落地取決於建立翻譯工具資源的 Azure 區域:

  • 在歐洲的任何區域中 (瑞士除外) 建立的翻譯工具資源會在北歐和西歐的資料中心進行處理
  • 在瑞士任何區域中建立的翻譯工具資源會在瑞士北部和瑞士西部的資料中心進行處理
  • 在亞太地區或澳大利亞的任何區域中建立的翻譯工具資源會在東南亞和澳大利亞東部的資料中心進行處理
  • 在所有其他區域中建立的翻譯工具資源,包括全域、北美洲和南美洲,都會在美國東部和美國西部 2 的資料中心進行處理

✔️ 功能:文件翻譯
✔️服務端點:自訂:<name-of-your-resource.cognitiveservices.azure.com/translator/text/batch/v1.1

資源區域 要求處理資料中心
歐洲任何區域 (瑞士除外) 歐洲:北歐 • 西歐
瑞士 瑞士:瑞士北部 • 瑞士西部
亞太地區和澳大利亞的任何區域 亞洲:東南亞 • 澳大利亞東部
包括全球、北美洲和南美洲在內的所有其他區域 美國:美國東部 • 美國西部 2

下一步

在快速入門中,您將了解如何透過文件翻譯來快速開始使用。 若要開始,您需要使用中的 Azure 帳戶。 如果您沒有帳戶,您可以建立免費帳戶