Übersicht über die optische Zeichenerkennung in Microsoft Syntex

Artikel
23.10.2024

Hinweis

Bis Juni 2025 können Sie eine begrenzte Menge an optischer Zeichenerkennung und anderen ausgewählten Syntex-Diensten kostenlos testen, wenn Sie die abrechnungsbasierte Bezahlung eingerichtet haben. Informationen und Einschränkungen finden Sie unter Testen Microsoft Syntex und Erkunden der zugehörigen Dienste.

Mit dem OCR-Dienst (Optische Zeichenerkennung) in Microsoft Syntex können Sie gedruckten oder handschriftlichen Text aus Bildern und Dokumenten extrahieren. Beispiele für Bilder sind Poster, Zeichnungen und Produktetiketten. Beispiele für Dokumente sind Artikel, Berichte, Formulare und Rechnungen.

Der Text wird in der Regel als Wörter, Textzeilen und Absätze oder Textblöcke extrahiert, wodurch der Zugriff auf die digitale Version des gescannten Texts ermöglicht wird. Die extrahierten Informationen werden in der Suche indiziert und können für Compliancefeatures wie Data Loss Prevention (DLP) verfügbar gemacht werden.

Beispielsweise aktivieren Sie den OCR-Dienst und fügen dann Ihrer Dokumentbibliothek Bilddateien hinzu. Microsoft Syntex scannt automatisch die Bilddateien, extrahiert den relevanten Text und stellt den Text aus den Bildern für die Suche und Indizierung zur Verfügung. Mit diesem Feature können Sie die Schlüsselwörter und Ausdrücke, die Sie suchen, schnell und genau finden.

Anforderungen und Einschränkungen

Unterstützte Dateitypen

Endpunkt	Unterstützte Dateitypen
SharePoint und OneDrive	`.bmp, .png, .jpeg, .jpg, .jfif, .arw, .cr2, .crw, .erf, .gif, .mef, .mrw, .nef, .nrw, .orf, .pef, .raw, .rw2, .rw1, .sr2, .tif, .tiff, .heic, .heif, .ari, .bay, .cap, .cr3, .dcs, .dcr, .drf, .eip, .fff, .iiq, .k25, .kdc, .mef, .mos, .ptx, .pxn, .raf, .rwl, .sr2, .srf, .srw, .x3f, .dng, .tiff, and .pdf`
Teams-, Exchange- und Windows-Geräte	`.bmp, .png, .jpeg, .jpg, .tiff, and .pdf`

Zusätzlich zum bildbasierten PDF unterstützt Syntex OCR ab November 2024 hybride PDF-Dateien (Text plus Bild-PDF). Danach werden neu hochgeladene Hybrid-PDF-Dateien vom OCR-Dienst verarbeitet.

Hinweis

Wenn Sie OCR auf eine Bilddatei anwenden, wird der Text in der Spalte Extrahierter Textmetadaten gespeichert. Wenn Sie OCR auf eine PDF- oder TIFF-Datei anwenden, wird der extrahierte Text in der Suche indiziert, aber nicht in der Metadatenspalte verfügbar.

Unterstützte Sprachen

Der OCR-Dienst unterstützt mehr als 150 Sprachen.

Unterstützte Standorte und Lösungen

Der OCR-Dienst unterstützt mehrere Lösungen, wie in der folgenden Tabelle gezeigt. Ausführliche Informationen zu Compliancelösungen finden Sie unter Unterstützte Standorte und Lösungen in Microsoft Purview.

Standort	Unterstützte Lösung
Exchange	Text ist für Endbenutzersuche und suchgesteuerte Lösungen verfügbar. Text ist für Compliancelösungen verfügbar.
SharePoint-Websites	Text ist für Endbenutzersuche und suchgesteuerte Lösungen verfügbar. Text ist für Compliancelösungen verfügbar.
OneDrive-Konten	Text ist für Endbenutzersuche und suchgesteuerte Lösungen verfügbar. Text ist für Compliancelösungen verfügbar.
Teams-Chat und Kanalnachricht	Text ist für Compliancelösungen verfügbar.
Geräte	Text ist für Compliancelösungen verfügbar.

Dateieinschränkungen

Images müssen kleiner als 50 MB sein.
Bilder müssen mindestens 50 x 50 Pixel und nicht größer als 16.000 x 16.000 Pixel sein.
Bilder, die nach der Aktivierung von OCR hochgeladen wurden, sind die einzigen Bilder, die gescannt werden.
Bilder, die in Office-Dokumente eingebettet sind, werden nicht unterstützt.

Teilen über