Microsoft Syntex のモデルの要件と制限事項
適用対象: ✓ すべてのカスタム モデル |✓すべての事前構築済みモデル
Microsoft Syntex では、 カスタム モデルと事前構築済みモデルを作成できます。 選択するモデルの種類によっては、ファイルの種類とサイズ、サポートする必要がある言語、地理的な考慮事項、使用するモデルの種類を決定するのに役立つその他の要因など、さまざまな要件が存在する可能性があります。
カスタム モデル:
事前構築済みモデル:
カスタム モデル
非構造化ドキュメント処理
アイコン | 説明 |
---|---|
サポートされているファイルの種類 このモデルでは、.csv、.doc、.docx、 .eml、.heic、.heif、.htm、.html、.jpeg、.jpg、.md、.msg、.pdf、.png、.ppt、.pptx、.rtf、.tif、.tiff、.txt、.xls、および .xlsx ( .xls および .xlsx ファイル内の数式は実行されません)。 |
|
サポートされている言語 このモデルでは、英語、フランス語、ドイツ語、イタリア語、スペイン語など、ラテンベースのすべての言語がサポートされています。 |
|
OCR に関する考慮事項 このモデルでは、光学式文字認識 (OCR) テクノロジを使用して、.pdf ファイル、イメージ ファイル、および.tiff ファイルをスキャンします。 OCR 処理は、次の要件を満たすドキュメントで最適に機能します。 - .jpg、.png、または .pdf のファイル形式 (テキストまたはスキャン)。 文字の抽出と場所にエラーが発生しないため、テキスト埋め込み .pdf ファイルの方が優れています。 - .pdf ファイルがパスワードロックされている場合は、送信する前にロックを削除する必要があります。 - コレクションごとのトレーニングに使用されるドキュメントの合計ファイル サイズは 50 MB を超えてはなりません。また、PDF ドキュメントには 500 ページを超えてはなりません。 - 画像の場合、寸法は 50 x 50 ~ 10,000 x 10,000 ピクセルである必要があります。 非常に幅が広い画像やサイズが奇数の画像 (平面図など) は、OCR プロセスで切り捨てられ、精度が低下する可能性があります。 - .pdf ファイルの場合、サイズは最大 11 x 17 インチで、Legal または A3 の用紙サイズに対応し、小さくする必要があります。 - 紙文書からスキャンした場合、スキャンは高品質の画像である必要があります。 - ラテン文字 (英語) を使用する必要があります。 Microsoft Office のテキスト ベースのファイルと OCR でスキャンされたファイル (.pdf、画像、または.tiff) に関する次の違いに注意してください。 - すべてのファイル: 64,000 文字で切り捨てられます (トレーニング中およびドキュメント ライブラリ内のファイルに対して実行する場合)。 - OCR スキャンされたファイル: 500 ページの制限があります。 OCR によって処理されるのは、PDF ファイルと画像ファイルの種類のみです。 |
|
Multi-Geo 環境 Microsoft 365 Multi-Geo 環境で Syntex を設定する場合は、中央の場所でモデルの種類を使用するようにのみ構成できます。 サテライトの場所でこのモデルの種類を使用する場合は、Microsoft サポートにお問い合わせください。 |
|
マルチモデル ライブラリ 2 つ以上のトレーニング済みモデルが同じライブラリに適用されている場合、ファイルは、平均信頼度スコアが最も高いモデルを使用して分類されます。 抽出されたエンティティは、適用されたモデルからのみ取得されます。 |
フリーフォームドキュメント処理
アイコン | 説明 |
---|---|
サポートされているファイルの種類 このモデルでは、次のファイルの種類がサポートされています。 「ファイルの種類の要件」を参照してください。 |
|
サポートされている言語 このモデルでは、次の言語がサポートされています。「 一般的なドキュメントのモデル」を参照してください。 |
|
OCR に関する考慮事項 このモデルでは、光学式文字認識 (OCR) テクノロジを使用して、.pdf ファイル、イメージ ファイル、および.tiff ファイルをスキャンします。 OCR 処理は、 これらの要件を満たすドキュメントに最適です。 |
|
最適化に関するヒント モデルが思いどおりに実行されていない場合は、 次の手順を試してモデルのパフォーマンスを向上させます。 |
|
Multi-Geo 環境 Microsoft 365 Multi-Geo 環境で Syntex を設定する場合は、中央の場所でモデルの種類を使用するようにのみ構成できます。 サテライトの場所でこのモデルの種類を使用する場合は、Microsoft サポートにお問い合わせください。 |
|
Power Platform のカスタム環境 Power Platform の処理にカスタム環境 (既定の環境ではなく) を使用する場合は、追加のセットアップ要件があります。 詳細については、「 カスタム Power Platform 環境」を参照してください。 |
|
マルチモデル ライブラリ 2 つ以上のトレーニング済みモデルが同じライブラリに適用されている場合、ファイルは、平均信頼度スコアが最も高いモデルを使用して分類されます。 抽出されたエンティティは、適用されたモデルからのみ取得されます。 ライブラリごとに、フリーフォームまたは構造化モデルを 1 つだけ使用できます。 |
構造化ドキュメント処理
アイコン | 説明 |
---|---|
サポートされているファイルの種類 このモデルでは、次のファイルの種類がサポートされています。 「ファイルの種類の要件」を参照してください。 |
|
サポートされている言語 このモデルでは、次の言語がサポートされています。 「固定テンプレート ドキュメントのモデル」を参照してください。 |
|
OCR に関する考慮事項 このモデルでは、光学式文字認識 (OCR) テクノロジを使用して、.pdf ファイル、イメージ ファイル、および.tiff ファイルをスキャンします。 OCR 処理は、 これらの要件を満たすドキュメントに最適です。 |
|
最適化に関するヒント モデルが思いどおりに実行されていない場合は、 次の手順を試してモデルのパフォーマンスを向上させます。 |
|
Multi-Geo 環境 Microsoft 365 Multi-Geo 環境で Syntex を設定する場合は、中央の場所でモデルの種類を使用するようにのみ構成できます。 サテライトの場所でこのモデルの種類を使用する場合は、Microsoft サポートにお問い合わせください。 |
|
Power Platform のカスタム環境 Power Platform の処理にカスタム環境 (既定の環境ではなく) を使用する場合は、追加のセットアップ要件があります。 詳細については、「 カスタム Power Platform 環境」を参照してください。 |
|
マルチモデル ライブラリ 2 つ以上のトレーニング済みモデルが同じライブラリに適用されている場合、ファイルは、平均信頼度スコアが最も高いモデルを使用して分類されます。 抽出されたエンティティは、適用されたモデルからのみ取得されます。 ライブラリごとに、フリーフォームまたは構造化モデルを 1 つだけ使用できます。 |
事前構築済みモデル
契約処理
アイコン | 説明 |
---|---|
サポートされているファイルの種類 このモデルでは、.bmp、.jpeg、.pdf、.png、.tiffのファイルの種類がサポートされています。 |
|
サポートされている言語 このモデルでは、英語のコントラクトのみがサポートされます。 |
|
OCR に関する考慮事項 このモデルでは、光学式文字認識 (OCR) テクノロジを使用して、.pdf ファイル、イメージ ファイル、および.tiff ファイルをスキャンします。 OCR 処理は、次の要件を満たすドキュメントで最適に機能します。 - .jpg、.png、または .pdf のファイル形式 (テキストまたはスキャン)。 文字の抽出と場所にエラーが発生しないため、テキスト埋め込み .pdf ファイルの方が優れています。 - .pdf ファイルと.tiffファイルの場合、最大 2,000 ページを処理できます。 - ファイル サイズは 50 MB 未満にする必要があります。 - 画像の場合、寸法は 50 x 50 ~ 10,000 x 10,000 ピクセルである必要があります。 - .pdf ファイルの場合、サイズは最大 11 x 17 インチで、Legal または A3 の用紙サイズに対応し、小さくする必要があります。 - トレーニング データの合計サイズは 500 ページ以下です。 |
|
Multi-Geo 環境 Microsoft 365 Multi-Geo 環境で Syntex を設定する場合は、中央の場所でモデルの種類を使用するようにのみ構成できます。 サテライトの場所でこのモデルの種類を使用する場合は、Microsoft サポートにお問い合わせください。 |
|
マルチモデル ライブラリ 2 つ以上のトレーニング済みモデルが同じライブラリに適用されている場合、ファイルは、平均信頼度スコアが最も高いモデルを使用して分類されます。 抽出されたエンティティは、適用されたモデルからのみ取得されます。 |
請求書処理
アイコン | 説明 |
---|---|
サポートされているファイルの種類 このモデルでは、.bmp、.jpeg、.pdf、.png、.tiffのファイルの種類がサポートされています。 |
|
サポートされている言語 このモデルでは、英語、スペイン語、ドイツ語、フランス語、イタリア語、ポルトガル語、オランダ語の請求書がサポートされています。 |
|
OCR に関する考慮事項 このモデルでは、光学式文字認識 (OCR) テクノロジを使用して、.pdf ファイル、イメージ ファイル、および.tiff ファイルをスキャンします。 OCR 処理は、次の要件を満たすドキュメントで最適に機能します。 - .jpg、.png、または .pdf のファイル形式 (テキストまたはスキャン)。 文字の抽出と場所にエラーが発生しないため、テキスト埋め込み .pdf ファイルの方が優れています。 - .pdf ファイルと.tiffファイルの場合、最大 2,000 ページを処理できます。 - ファイル サイズは 50 MB 未満にする必要があります。 - 画像の場合、寸法は 50 x 50 ~ 10,000 x 10,000 ピクセルである必要があります。 - .pdf ファイルの場合、サイズは最大 11 x 17 インチで、Legal または A3 の用紙サイズに対応し、小さくする必要があります。 - トレーニング データの合計サイズは 500 ページ以下です。 |
|
Multi-Geo 環境 Microsoft 365 Multi-Geo 環境で Syntex を設定する場合は、中央の場所でモデルの種類を使用するようにのみ構成できます。 サテライトの場所でこのモデルの種類を使用する場合は、Microsoft サポートにお問い合わせください。 |
|
マルチモデル ライブラリ 2 つ以上のトレーニング済みモデルが同じライブラリに適用されている場合、ファイルは、平均信頼度スコアが最も高いモデルを使用して分類されます。 抽出されたエンティティは、適用されたモデルからのみ取得されます。 |
領収書処理
アイコン | 説明 |
---|---|
サポートされているファイルの種類 このモデルでは、.bmp、.jpeg、.pdf、.png、.tiffのファイルの種類がサポートされています。 |
|
サポートされている言語 このモデルでは、英語、Croation、チェコ語、デンマーク語、オランダ語、フィンランド語、ドイツ語、ハンガリー語、イタリア語、日本語、ラトビア語、リトアニア語、ノルウェー語、ポルトガル語、スペイン語、スウェーデン語、ベトナム語の領収書がサポートされています。 |
|
OCR に関する考慮事項 このモデルでは、光学式文字認識 (OCR) テクノロジを使用して、.pdf ファイル、イメージ ファイル、および.tiff ファイルをスキャンします。 OCR 処理は、次の要件を満たすドキュメントで最適に機能します。 - .jpg、.png、または .pdf のファイル形式 (テキストまたはスキャン)。 文字の抽出と場所にエラーが発生しないため、テキスト埋め込み .pdf ファイルの方が優れています。 - .pdf ファイルと.tiffファイルの場合、最大 2,000 ページを処理できます。 - ファイル サイズは 50 MB 未満にする必要があります。 - 画像の場合、寸法は 50 x 50 ~ 10,000 x 10,000 ピクセルである必要があります。 - .pdf ファイルの場合、サイズは最大 11 x 17 インチで、Legal または A3 の用紙サイズに対応し、小さくする必要があります。 - トレーニング データの合計サイズは 500 ページ以下です。 |
|
Multi-Geo 環境 Microsoft 365 Multi-Geo 環境で Syntex を設定する場合は、中央の場所でモデルの種類を使用するようにのみ構成できます。 サテライトの場所でこのモデルの種類を使用する場合は、Microsoft サポートにお問い合わせください。 |
|
マルチモデル ライブラリ 2 つ以上のトレーニング済みモデルが同じライブラリに適用されている場合、ファイルは、平均信頼度スコアが最も高いモデルを使用して分類されます。 抽出されたエンティティは、適用されたモデルからのみ取得されます。 |
機密情報の処理
アイコン | 説明 |
---|---|
サポートされているファイルの種類 このモデルでは、次のファイルの種類がサポートされています: .csv、 .doc、.docx、.eml、.heic、.heif、.htm、.html、.jpeg .jpg、.md、.msg、.pdf、.png、.ppt、.pptx、.rtf、.tif、.tiff、.txt、.xls、.xlsx。 |
|
サポートされている言語 このモデルでは、次の言語がサポートされています。 サポートされている言語を参照してください。 このモデルでは、 手書きテキスト と印刷テキストの両方の言語もサポート されています。 |
|
OCR に関する考慮事項 このモデルでは、光学式文字認識 (OCR) テクノロジを使用して、.pdf ファイル、イメージ ファイル、および.tiff ファイルをスキャンします。 OCR 処理は、次の要件を満たすドキュメントで最適に機能します。 - .jpg、.png、または .pdf のファイル形式 (テキストまたはスキャン)。 文字の抽出と場所にエラーが発生しないため、テキスト埋め込み .pdf ファイルの方が優れています。 - .pdf ファイルと.tiffファイルの場合、最大 2,000 ページを処理できます。 - ファイル サイズは 50 MB 未満にする必要があります。 - 画像の場合、寸法は 50 x 50 ~ 10,000 x 10,000 ピクセルである必要があります。 - .pdf ファイルの場合、サイズは最大 11 x 17 インチで、Legal または A3 の用紙サイズに対応し、小さくする必要があります。 - トレーニング データの合計サイズは 500 ページ以下です。 手書きテキストと印刷テキストの両方の言語をサポートします。 |
|
Multi-Geo 環境 Microsoft 365 Multi-Geo 環境で Syntex を設定する場合は、中央の場所でモデルの種類を使用するようにのみ構成できます。 サテライトの場所でこのモデルの種類を使用する場合は、Microsoft サポートにお問い合わせください。 |
|
マルチモデル ライブラリ 2 つ以上のトレーニング済みモデルが同じライブラリに適用されている場合、ファイルは、平均信頼度スコアが最も高いモデルを使用して分類されます。 抽出されたエンティティは、適用されたモデルからのみ取得されます。 |