Teilen über


Anforderungen und Einschränkungen für Modelle in Microsoft Syntex

Gilt für: ✓ Alle benutzerdefinierten Modelle | ✓ Alle vordefinierten Modelle

Mit Microsoft Syntex können Sie benutzerdefinierte Modelle und vordefinierte Modelle erstellen. Je nach gewähltem Modelltyp gibt es möglicherweise unterschiedliche Anforderungen, z. B. Dateityp und -größe, unterstützte Sprachen, geografische Überlegungen und andere Faktoren, die Ihnen bei der Entscheidung helfen, welchen Typ von Modell Sie verwenden möchten.

Benutzerdefinierte Modelle:

Vordefinierte Modelle:

Benutzerdefinierte Modelle

Unstrukturierte Dokumentverarbeitung

Symbol Beschreibung
Symbol Unterstützte Dateitypen
Dieses Modell unterstützt die folgenden Dateitypen: .csv, .doc, .docx, .eml, .heic, .heif, .htm, .html, .jpeg, .jpg, .md, .msg, .pdf, .png, .ppt, .pptx, .rtf, .tif, .tiff, .txt, .xls und .xlsx (Formeln in .xls- und .xlsx-Dateien werden nicht ausgeführt).
Unterhaltungssymbol. Unterstützte Sprachen

Dieses Modell unterstützt die folgenden Sprachen: Weitere Informationen finden Sie unter Unterstützte Sprachen.
Absatzsymbol. OCR-Überlegungen
Dieses Modell verwendet ocr-Technologie (Optische Zeichenerkennung), um .pdf Dateien, Bilddateien und .tiff Dateien zu scannen. Die OCR-Verarbeitung funktioniert am besten bei Dokumenten, die die folgenden Kriterien erfüllen:
- Dateiformat von .jpg, .png oder .pdf (Text oder gescannt). Text eingebettete .pdf-Dateien sind besser, da es keine Fehler bei der Zeichenextraktion und dem Speicherort gibt.
- Wenn Ihre .pdf Dateien kennwortgesperrt sind, müssen Sie die Sperre entfernen, bevor Sie sie übermitteln.
- Die kombinierte Dateigröße der dokumente, die für das Training pro Sammlung verwendet werden, darf 50 MB nicht überschreiten, und PDF-Dokumente dürfen nicht mehr als 500 Seiten haben.
- Bei Bildern müssen die Abmessungen zwischen 50 x 50 und 10.000 x 10.000 Pixeln betragen. Bilder, die sehr breit sind oder seltsame Abmessungen haben (z. B. Grundrisse), werden im OCR-Prozess möglicherweise abgeschnitten und verlieren an Genauigkeit.
- Für .pdf Dateien müssen die Abmessungen höchstens 11 x 17 Zoll betragen, entsprechend den Papierformaten Legal oder A3 und kleiner.
- Wenn sie aus Papierdokumenten gescannt werden, sollten Scans qualitativ hochwertige Bilder sein.
– Muss das lateinische Alphabet (englische Zeichen) verwenden.
Beachten Sie die folgenden Unterschiede zwischen textbasierten Microsoft Office-Dateien und OCR-gescannten Dateien (.pdf, Bild oder .tiff):
- Alle Dateien: Um 64.000 Zeichen abgeschnitten (im Training und beim Ausführen für Dateien in einer Dokumentbibliothek).
- OCR-gescannte Dateien: Es gibt ein Limit von 500 Seiten. Nur PDF- und Bilddateitypen werden von OCR verarbeitet.
Globussymbol. Multi-Geo-Umgebungen
Beim Einrichten von Syntex in einer Microsoft 365 Multi-Geo-Umgebung können Sie es nur so konfigurieren, dass der Modelltyp am zentralen Standort verwendet wird. Wenn Sie diesen Modelltyp an einem Satellitenstandort verwenden möchten, wenden Sie sich an den Microsoft-Support.
Objektsymbol. Bibliotheken mit mehreren Modellen
Wenn zwei oder mehr trainierte Modelle auf dieselbe Bibliothek angewendet werden, wird die Datei mithilfe des Modells klassifiziert, das die höchste durchschnittliche Zuverlässigkeitsbewertung aufweist. Die extrahierten Entitäten stammen nur aus dem angewendeten Modell.

Freihandform-Dokumentverarbeitung

Symbol Beschreibung
Symbol Unterstützte Dateitypen
Dieses Modell unterstützt die folgenden Dateitypen: Siehe Dateitypanforderungen.
Unterhaltungssymbol. Unterstützte Sprachen
Dieses Modell unterstützt die folgenden Sprachen: Weitere Informationen finden Sie unter Unterstützte Sprachen.
Absatzsymbol. OCR-Überlegungen
Dieses Modell verwendet ocr-Technologie (Optische Zeichenerkennung), um .pdf Dateien, Bilddateien und .tiff Dateien zu scannen. Die OCR-Verarbeitung funktioniert am besten für Dokumente, die diese Anforderungen erfüllen.
Symbol für Bandbreite/Effizienz. Tipps zur Optimierung
Wenn Ihr Modell nicht die gewünschte Leistung aufweist, führen Sie die folgenden Schritte aus, um die Leistung Ihres Modells zu verbessern.
Globussymbol. Multi-Geo-Umgebungen
Beim Einrichten von Syntex in einer Microsoft 365 Multi-Geo-Umgebung können Sie es nur so konfigurieren, dass der Modelltyp am zentralen Standort verwendet wird. Wenn Sie diesen Modelltyp an einem Satellitenstandort verwenden möchten, wenden Sie sich an den Microsoft-Support.
Blocksymbol. Benutzerdefinierte Power-Plattform-Umgebungen
Wenn Sie eine benutzerdefinierte Umgebung (anstelle der Standardumgebung) für die Power Platform-Verarbeitung verwenden, gibt es zusätzliche Setupanforderungen. Weitere Informationen finden Sie unter Benutzerdefinierte Power Platform-Umgebungen.
Objektsymbol. Bibliotheken mit mehreren Modellen
Wenn zwei oder mehr trainierte Modelle auf dieselbe Bibliothek angewendet werden, wird die Datei mithilfe des Modells klassifiziert, das die höchste durchschnittliche Zuverlässigkeitsbewertung aufweist. Die extrahierten Entitäten stammen nur aus dem angewendeten Modell. Sie können nur ein Freihandformular oder ein strukturiertes Modell pro Bibliothek verwenden.

Strukturierte Dokumentverarbeitung

Symbol Beschreibung
Symbol Unterstützte Dateitypen
Dieses Modell unterstützt die folgenden Dateitypen: Siehe Dateitypanforderungen.
Unterhaltungssymbol. Unterstützte Sprachen
Dieses Modell unterstützt die folgenden Sprachen: Weitere Informationen finden Sie unter Unterstützte Sprachen.
Absatzsymbol. OCR-Überlegungen
Dieses Modell verwendet ocr-Technologie (Optische Zeichenerkennung), um .pdf Dateien, Bilddateien und .tiff Dateien zu scannen. Die OCR-Verarbeitung funktioniert am besten für Dokumente, die diese Anforderungen erfüllen.
Symbol für Bandbreite/Effizienz. Tipps zur Optimierung
Wenn Ihr Modell nicht die gewünschte Leistung aufweist, führen Sie die folgenden Schritte aus, um die Leistung Ihres Modells zu verbessern.
Globussymbol. Multi-Geo-Umgebungen
Beim Einrichten von Syntex in einer Microsoft 365 Multi-Geo-Umgebung können Sie es nur so konfigurieren, dass der Modelltyp am zentralen Standort verwendet wird. Wenn Sie diesen Modelltyp an einem Satellitenstandort verwenden möchten, wenden Sie sich an den Microsoft-Support.
Blocksymbol. Benutzerdefinierte Power-Plattform-Umgebungen
Wenn Sie eine benutzerdefinierte Umgebung (anstelle der Standardumgebung) für die Power Platform-Verarbeitung verwenden, gibt es zusätzliche Setupanforderungen. Weitere Informationen finden Sie unter Benutzerdefinierte Power Platform-Umgebungen.
Objektsymbol. Bibliotheken mit mehreren Modellen
Wenn zwei oder mehr trainierte Modelle auf dieselbe Bibliothek angewendet werden, wird die Datei mithilfe des Modells klassifiziert, das die höchste durchschnittliche Zuverlässigkeitsbewertung aufweist. Die extrahierten Entitäten stammen nur aus dem angewendeten Modell. Sie können nur ein Freihandformular oder ein strukturiertes Modell pro Bibliothek verwenden.

Vordefinierte Modelle

Vertragsverarbeitung

Symbol Beschreibung
Symbol Unterstützte Dateitypen
Dieses Modell unterstützt die folgenden Dateitypen: .bmp, .jpeg, .pdf, .png und .tiff.
Unterhaltungssymbol. Unterstützte Sprachen
Dieses Modell unterstützt nur englischsprachige Verträge.
Absatzsymbol. OCR-Überlegungen
Dieses Modell verwendet ocr-Technologie (Optische Zeichenerkennung), um .pdf Dateien, Bilddateien und .tiff Dateien zu scannen. Die OCR-Verarbeitung funktioniert am besten bei Dokumenten, die die folgenden Kriterien erfüllen:
- Dateiformat von .jpg, .png oder .pdf (Text oder gescannt). Text eingebettete .pdf-Dateien sind besser, da es keine Fehler bei der Zeichenextraktion und dem Speicherort gibt.
- Für .pdf und .tiff Dateien können bis zu 2.000 Seiten verarbeitet werden.
- Die Dateigröße muss kleiner als 50 MB sein.
- Bei Bildern müssen die Abmessungen zwischen 50 x 50 und 10.000 x 10.000 Pixeln betragen.
- Für .pdf Dateien müssen die Abmessungen höchstens 11 x 17 Zoll betragen, entsprechend den Papierformaten Legal oder A3 und kleiner.
– Die Gesamtgröße der Trainingsdaten beträgt maximal 500 Seiten.
Globussymbol. Multi-Geo-Umgebungen
Beim Einrichten von Syntex in einer Microsoft 365 Multi-Geo-Umgebung können Sie es nur so konfigurieren, dass der Modelltyp am zentralen Standort verwendet wird. Wenn Sie diesen Modelltyp an einem Satellitenstandort verwenden möchten, wenden Sie sich an den Microsoft-Support.
Objektsymbol. Bibliotheken mit mehreren Modellen
Wenn zwei oder mehr trainierte Modelle auf dieselbe Bibliothek angewendet werden, wird die Datei mithilfe des Modells klassifiziert, das die höchste durchschnittliche Zuverlässigkeitsbewertung aufweist. Die extrahierten Entitäten stammen nur aus dem angewendeten Modell.

Rechnungsverarbeitung

Symbol Beschreibung
Symbol Unterstützte Dateitypen
Dieses Modell unterstützt die folgenden Dateitypen: .bmp, .jpeg, .pdf, .png und .tiff.
Unterhaltungssymbol. Unterstützte Sprachen
Dieses Modell unterstützt Rechnungen in Englisch, Spanisch, Deutsch, Französisch, Italienisch, Portugiesisch und Niederländisch.
Absatzsymbol. OCR-Überlegungen
Dieses Modell verwendet ocr-Technologie (Optische Zeichenerkennung), um .pdf Dateien, Bilddateien und .tiff Dateien zu scannen. Die OCR-Verarbeitung funktioniert am besten bei Dokumenten, die die folgenden Kriterien erfüllen:
- Dateiformat von .jpg, .png oder .pdf (Text oder gescannt). Text eingebettete .pdf-Dateien sind besser, da es keine Fehler bei der Zeichenextraktion und dem Speicherort gibt.
- Für .pdf und .tiff Dateien können bis zu 2.000 Seiten verarbeitet werden.
- Die Dateigröße muss kleiner als 50 MB sein.
- Bei Bildern müssen die Abmessungen zwischen 50 x 50 und 10.000 x 10.000 Pixeln betragen.
- Für .pdf Dateien müssen die Abmessungen höchstens 11 x 17 Zoll betragen, entsprechend den Papierformaten Legal oder A3 und kleiner.
– Die Gesamtgröße der Trainingsdaten beträgt maximal 500 Seiten.
Globussymbol. Multi-Geo-Umgebungen
Beim Einrichten von Syntex in einer Microsoft 365 Multi-Geo-Umgebung können Sie es nur so konfigurieren, dass der Modelltyp am zentralen Standort verwendet wird. Wenn Sie diesen Modelltyp an einem Satellitenstandort verwenden möchten, wenden Sie sich an den Microsoft-Support.
Objektsymbol. Bibliotheken mit mehreren Modellen
Wenn zwei oder mehr trainierte Modelle auf dieselbe Bibliothek angewendet werden, wird die Datei mithilfe des Modells klassifiziert, das die höchste durchschnittliche Zuverlässigkeitsbewertung aufweist. Die extrahierten Entitäten stammen nur aus dem angewendeten Modell.

Belegverarbeitung

Symbol Beschreibung
Symbol Unterstützte Dateitypen
Dieses Modell unterstützt die folgenden Dateitypen: .bmp, .jpeg, .pdf, .png und .tiff.
Unterhaltungssymbol. Unterstützte Sprachen
Dieses Modell unterstützt Belege in Englisch, Kroation, Tschechisch, Dänisch, Niederländisch, Finnisch, Deutsch, Ungarisch, Italienisch, Japanisch, Lettisch, Litauisch, Norwegisch, Portugiesisch, Spanisch, Schwedisch und Vietnamesisch.
Absatzsymbol. OCR-Überlegungen
Dieses Modell verwendet ocr-Technologie (Optische Zeichenerkennung), um .pdf Dateien, Bilddateien und .tiff Dateien zu scannen. Die OCR-Verarbeitung funktioniert am besten bei Dokumenten, die die folgenden Kriterien erfüllen:
- Dateiformat von .jpg, .png oder .pdf (Text oder gescannt). Text eingebettete .pdf-Dateien sind besser, da es keine Fehler bei der Zeichenextraktion und dem Speicherort gibt.
- Für .pdf und .tiff Dateien können bis zu 2.000 Seiten verarbeitet werden.
- Die Dateigröße muss kleiner als 50 MB sein.
- Bei Bildern müssen die Abmessungen zwischen 50 x 50 und 10.000 x 10.000 Pixeln betragen.
- Für .pdf Dateien müssen die Abmessungen höchstens 11 x 17 Zoll betragen, entsprechend den Papierformaten Legal oder A3 und kleiner.
– Die Gesamtgröße der Trainingsdaten beträgt maximal 500 Seiten.
Globussymbol. Multi-Geo-Umgebungen
Beim Einrichten von Syntex in einer Microsoft 365 Multi-Geo-Umgebung können Sie es nur so konfigurieren, dass der Modelltyp am zentralen Standort verwendet wird. Wenn Sie diesen Modelltyp an einem Satellitenstandort verwenden möchten, wenden Sie sich an den Microsoft-Support.
Objektsymbol. Bibliotheken mit mehreren Modellen
Wenn zwei oder mehr trainierte Modelle auf dieselbe Bibliothek angewendet werden, wird die Datei mithilfe des Modells klassifiziert, das die höchste durchschnittliche Zuverlässigkeitsbewertung aufweist. Die extrahierten Entitäten stammen nur aus dem angewendeten Modell.

Verarbeitung vertraulicher Informationen

Symbol Beschreibung
Symbol Unterstützte Dateitypen
Dieses Modell unterstützt die folgenden Dateitypen: .csv, .doc, .docx, .eml, .heic, .heif, .htm, .html, .jpeg, .jpg, .md, .msg, .pdf, .png, .ppt, .pptx, .rtf, .tif, .tiff, .txt, .xls und .xlsx.
Unterhaltungssymbol. Unterstützte Sprachen
Dieses Modell unterstützt die folgenden Sprachen: Weitere Informationen finden Sie unter Unterstützte Sprachen.
Dieses Modell unterstützt auch Sprachen sowohl für handschriftlichen Text als auch für Drucktext.
Absatzsymbol. OCR-Überlegungen
Dieses Modell verwendet ocr-Technologie (Optische Zeichenerkennung), um .pdf Dateien, Bilddateien und .tiff Dateien zu scannen. Die OCR-Verarbeitung funktioniert am besten bei Dokumenten, die die folgenden Kriterien erfüllen:
- Dateiformat von .jpg, .png oder .pdf (Text oder gescannt). Text eingebettete .pdf-Dateien sind besser, da es keine Fehler bei der Zeichenextraktion und dem Speicherort gibt.
- Für .pdf und .tiff Dateien können bis zu 2.000 Seiten verarbeitet werden.
- Die Dateigröße muss kleiner als 50 MB sein.
- Bei Bildern müssen die Abmessungen zwischen 50 x 50 und 10.000 x 10.000 Pixeln betragen.
- Für .pdf Dateien müssen die Abmessungen höchstens 11 x 17 Zoll betragen, entsprechend den Papierformaten Legal oder A3 und kleiner.
– Die Gesamtgröße der Trainingsdaten beträgt maximal 500 Seiten.
Unterstützt Sprachen sowohl für handschriftlichen Text als auch für Drucktext.
Globussymbol. Multi-Geo-Umgebungen
Beim Einrichten von Syntex in einer Microsoft 365 Multi-Geo-Umgebung können Sie es nur so konfigurieren, dass der Modelltyp am zentralen Standort verwendet wird. Wenn Sie diesen Modelltyp an einem Satellitenstandort verwenden möchten, wenden Sie sich an den Microsoft-Support.
Objektsymbol. Bibliotheken mit mehreren Modellen
Wenn zwei oder mehr trainierte Modelle auf dieselbe Bibliothek angewendet werden, wird die Datei mithilfe des Modells klassifiziert, das die höchste durchschnittliche Zuverlässigkeitsbewertung aufweist. Die extrahierten Entitäten stammen nur aus dem angewendeten Modell.