ドキュメント変換とは

ドキュメント翻訳は、Azure AI 翻訳サービスのクラウドベースの機械翻訳機能です。 元のドキュメント構造とデータ形式を維持しながら、すべてのサポートされている言語と方言で複数の複雑なドキュメントを翻訳できます。 Document Translation API では、2 つの翻訳操作がサポートされています。

  • 非同期バッチ ドキュメント翻訳では、複数のドキュメントと大きなファイルの非同期処理がサポートされます。 バッチ翻訳プロセスでは、翻訳前と翻訳後のドキュメント用のコンテナーを含む Azure Blob Storage アカウントが必要です。

  • 同期ドキュメント翻訳では、単一ファイルの翻訳の同期処理がサポートされます。 このファイル翻訳プロセスでは、Azure Blob Storage アカウントは必要ありません。 最後の応答に翻訳されたドキュメントが含まれており、それが呼び出し元のクライアントに直接返されます。

非同期バッチ翻訳

複数のドキュメントと大きなファイルを翻訳するには、非同期ドキュメント処理を使います。

バッチの主な機能

特徴量 説明
大きなファイルを翻訳する ドキュメント全体を非同期に翻訳します。
多数のファイルを翻訳する ドキュメント構造とデータ形式を維持しながら、サポートされているすべての言語と方言の間で複数のファイルを翻訳します。
ソース ファイルの表示を保持する 元のレイアウトと形式を維持したままファイルを翻訳します。
カスタム翻訳を適用する 汎用およびカスタム翻訳モデルを使用してドキュメントを翻訳します。
カスタム用語集を適用する カスタム用語集を使用してドキュメントを翻訳します。
ドキュメントの言語を自動的に検出する ドキュメントの言語を決定を、ドキュメント翻訳サービスに委ねます。
コンテンツで複数の言語が使用されているドキュメントを翻訳する 自動検出機能を使用して、複数の言語のコンテンツが含まれるドキュメントをターゲット言語に翻訳します。

バッチ開発のオプション

アプリケーションにドキュメント翻訳を追加するには、REST API またはクライアント ライブラリ SDK を使用します。

  • REST API は、 ドキュメントを翻訳するための HTTP 要求と承認ヘッダーを作成できるようにする、言語に依存しないインターフェイスです。

  • クライアント ライブラリ SDK は、プロジェクトに参照を追加することによってすぐに使用できる、言語固有のクラス、オブジェクト、メソッド、およびコードです。 現在、ドキュメント翻訳では、C#/.NETPython のプログラミング言語がサポートされています。

バッチでサポートされるドキュメントの形式

サポートされるドキュメント形式の取得メソッドでは、ドキュメント翻訳サービスでサポートされているドキュメント形式の一覧が返されます。 一覧には、共通ファイル拡張子と、アップロード API を使用している場合のコンテンツの種類が含まれます。

ファイルの種類 [ファイル拡張子] 説明
Adobe PDF pdf 移植可能なドキュメント ファイル形式。 ドキュメント翻訳では、光学式文字認識 (OCR) テクノロジを使用して、元のレイアウトを保持しながら、スキャンした PDF ドキュメント内のテキストを抽出して翻訳します。
コンマ区切りの値 csv スプレッドシート プログラムによって使用される、コンマ区切りの生データ ファイル。
HTML htmlhtm ハイパー テキスト マークアップ言語。
Localization Interchange File Format xlf 並列ドキュメント形式、翻訳メモリ システムのエクスポート。 使用される言語はファイル内で定義されています。
Markdown markdown, mdown, mkdn, md, mkd, mdwn, mdtxt, mdtext, rmd 書式設定されたテキストを作成するための軽量マークアップ言語。
M​HTML mthmlmht HTML コードとその関連リソースを結合するために使用される Web ページ アーカイブ形式。
Microsoft Excel xlsxlsx データ分析とドキュメント用のスプレッドシート ファイル。
Microsoft Outlook msg Microsoft Outlook で作成または保存された電子メール メッセージ。
Microsoft PowerPoint pptpptx スライドショー形式でコンテンツを表示するために使用されるプレゼンテーション ファイル。
Microsoft Word docdocx テキスト ドキュメント ファイル。
OpenDocument テキスト odt オープンソースのテキスト ドキュメント ファイル。
OpenDocument プレゼンテーション odp オープンソースのプレゼンテーション ファイル。
OpenDocument スプレッドシート ods オープンソースのスプレッドシート ファイル。
リッチ テキスト形式 rtf 書式設定を含むテキスト ドキュメント。
Tab Separated Values/TAB tsv/tab スプレッドシート プログラムによって使用される、タブ区切りの生データ ファイル。
テキスト txt 書式設定のないテキスト ドキュメント。

バッチ レガシ ファイルの種類

ソース ファイルの種類は、以下の例外を除いて、ドキュメントの翻訳中に保持されます。

ソース ファイルの拡張子 翻訳されたファイルの拡張子
.doc、.odt、.rtf、 .docx
.xls、.ods .xlsx
.ppt、.odp .pptx

バッチでサポートされる用語集の形式

ドキュメント翻訳では、次の種類の用語集ファイルがサポートされています。

ファイルの種類 [ファイル拡張子] 説明
コンマ区切りの値 csv スプレッドシート プログラムによって使用される、コンマ区切りの生データ ファイル。
Localization Interchange File Format xlfxliff 並列ドキュメント形式の、翻訳メモリ システムのエクスポート。使用される言語は、ファイル内で定義されます。
タブ区切りの値/TAB tsvtab スプレッドシート プログラムによって使用される、タブ区切りの生データ ファイル。

同期翻訳

HTTP 要求本文の一部としてドキュメントを送信し、翻訳されたドキュメントを HTTP 応答で受け取るには、同期翻訳処理を使います。

同期翻訳の主な機能

特徴量 説明
1 ページのファイルを翻訳する 同期要求は、入力として 1 つのドキュメントのみを受け付けます。
ソース ファイルの表示を保持する 元のレイアウトと形式を維持したままファイルを翻訳します。
カスタム翻訳を適用する 汎用およびカスタム翻訳モデルを使用してドキュメントを翻訳します。
カスタム用語集を適用する カスタム用語集を使用してドキュメントを翻訳します。
1 つの言語の翻訳 1 つのサポートされている言語との間で翻訳します。
ドキュメントの言語を自動的に検出する ドキュメントの言語を決定を、ドキュメント翻訳サービスに委ねます。
カスタム用語集を適用する カスタム用語集を使ってドキュメントを翻訳します。

同期でサポートされるドキュメントの形式

ファイルの種類 [ファイル拡張子] コンテンツ タイプ 説明
テキスト形式 .txt text/plain 書式設定のないテキスト ドキュメント。
タブ区切りの値 .txv
.tab
text/tab-separated-values タブを使って値を区切り、改行を使ってレコードを区切るテキスト ファイル形式。
コンマ区切りの値 .csv text/csv 値の間の区切り記号としてコンマを使うテキスト ファイル形式。
ハイパーテキスト マークアップ言語 .html
.htm
text/html HTML は、Web ページとコンテンツを構造化するために使われる標準的なマークアップ言語です。
M​HTML .mthml
.mht
message/rfc822
@application/x-mimearchive
@multipart/related
Web ページのアーカイブ ファイル形式。
Microsoft PowerPoint .pptx application/vnd.openxmlformats-officedocument.presentationml.presentation PowerPoint のスライドショー プレゼンテーションに使われる XML ベースのファイル形式。
Microsoft Excel .xlsx application/vnd.openxmlformats-officedocument.spreadsheetml.sheet Excel スプレッドシートに使われる XML ベースのファイル形式。
Microsoft Word .docx application/vnd.openxmlformats-officedocument.wordprocessingml.document Word 文書に使われる XML ベースのファイル形式。
Microsoft Outlook .msg application/vnd.ms-outlook 保存される Outlook メール メッセージ オブジェクトに使われるファイル形式。
XML Localization Interchange .xlf
.xliff
application/xliff+xml 翻訳とローカライズのソフトウェア処理で広く使われている標準化された XML ベースのファイル形式。

同期でサポートされる用語集の形式

ドキュメント翻訳では、次の種類の用語集ファイルがサポートされています。

ファイルの種類 [ファイル拡張子] 説明
コンマ区切りの値 csv スプレッドシート プログラムによって使用される、コンマ区切りの生データ ファイル。
XmlLocalizationInterchange xlfxliff ローカライズ プロセスの間のデータの受け渡し方法を標準化するために設計された XML ベースの形式。
TabSeparatedValues tsvtab スプレッドシート プログラムによって使用される、タブ区切りの生データ ファイル。

ドキュメント翻訳要求の制限

Azure AI 翻訳サービスの要求の制限について詳しくは、ドキュメント翻訳の要求の制限に関する記事をご覧ください

ドキュメント翻訳データ所在地

ドキュメント翻訳データの保存場所は、Translator リソースが作成された Azure リージョンによって異なります。

  • ヨーロッパ (スイスを除く) の任意のリージョンで 作成された Translator リソースは、北ヨーロッパと西ヨーロッパのデータ センターで処理されます。
  • スイスの任意のリージョンで作成された Translator リソースは、スイス北部とスイス西部のデータ センターで処理されます。
  • アジア太平洋またはオーストラリアの任意のリージョンで 作成された Translator リソースは、東南アジアとオーストラリア東部のデータ センターで処理されます。
  • グローバル、北米、南アメリカを含む他のすべてのリージョンで作成された Translator リソースは、米国東部と米国西部 2 のデータ センターで処理されます。

✔️ 機能: ドキュメント翻訳
✔️サービス エンドポイント: カスタム:<name-of-your-resource.cognitiveservices.azure.com/translator/text/batch/v1.1

リソース リージョン 要求処理データ センター
ヨーロッパ内の任意のリージョン (スイスを除く) ヨーロッパ: 北ヨーロッパ • 西ヨーロッパ
スイス スイス: スイス北部 • スイス西部
アジア太平洋とオーストラリア内の任意のリージョン アジア: 東南アジア • オーストラリア東部
グローバル、北米、南アメリカを含むその他のすべてのリージョン 米国: 米国東部 • 米国西部 2

次のステップ

クイックスタートでは、ドキュメント翻訳をすぐに使い始める方法について説明します。 開始するには、アクティブな Azure アカウントが必要です。 アカウントがない場合は、無料アカウントを作成することができます。