OCR: Optical Character Recognition (optische Zeichenerkennung)
OCR oder optische Zeichenerkennung wird auch als Texterkennung oder Textextraktion bezeichnet. Auf maschinellem Lernen basierende OCR-Techniken ermöglichen es Ihnen, gedruckten oder handgeschriebenen Text aus Bildern wie Postern, Straßenschildern und Produktetiketten sowie aus Dokumenten wie Artikeln, Berichten, Formularen und Rechnungen zu extrahieren. Der Text wird in der Regel in Form von Wörtern, Textzeilen und Absätzen oder Textblöcken extrahiert, was den Zugriff auf eine digitale Version des gescannten Texts ermöglicht. Dadurch wird die Notwendigkeit der manuellen Dateneingabe beseitigt oder deutlich verringert.
OCR-Engine
Die Read OCR-Engine von Microsoft besteht aus mehreren erweiterten, auf maschinellem Lernen basierenden Modellen, die globale Sprachen unterstützen. Die Software kann gedruckten und handgeschriebenen Text extrahieren, einschließlich gemischter Sprachen und Schreibstile. Read ist für eine flexible Bereitstellung als Clouddienst und lokaler Container verfügbar. Es ist auch als synchrone API für einzelne Szenarien verfügbar, die nur Bilder und keine Dokumente umfassen. Dabei wurde die Leistung verbessert, um die Implementierung OCR-unterstützter Benutzeroberflächen zu vereinfachen.
Warnung
Die Legacy-OCR-API in v3.2-Vorgänge und die RecognizeText-API in v2.1-Vorgänge von Azure KI Vision werden nicht zur Verwendung empfohlen.
OCR-Editionen (Read)
Wichtig
Wählen Sie die Read-Edition aus, die Ihren Anforderungen am besten entspricht.
Eingabe | Beispiele | Read-Edition | Vorteil |
---|---|---|---|
Images: Allgemein, In-the-Wild-Images | Beschriftungen, Straßenschilder und Poster | OCR für Bilder (Version 4.0) | Optimiert für allgemeine Bilder, die keine Dokumente sind, mit einer leistungsstärkeren synchronen API, die die Einbettung von OCR in Ihre Benutzerszenarien erleichtert. |
Dokumente: Digital und gescannt, einschließlich Images | Bücher, Artikel und Berichte | Lesemodell für Document Intelligence | Optimiert für gescannte und digitale Dokumente mit einer asynchronen API, um die intelligente Dokumentverarbeitung im großen Stil zu automatisieren. |
Info zu Azure KI Vision v3.2 GA Read
Suchen Sie nach der neuesten Azure KI Vision v3.2 GA Read? Alle zukünftigen Read OCR-Erweiterungen sind Teil der beiden zuvor aufgeführten Dienste. Für Azure KI Vision 3.2 wird es keine weiteren Updates geben. Weitere Informationen finden Sie unter Aufrufen der Azure KI Vision 3.2-Lese-API (GA) und Schnellstart: Azure KI Vision v3.2 GA Read.
Wie hängen OCR und die intelligente Dokumentverarbeitung (IDP) zusammen?
Die intelligente Dokumentverarbeitung (Intelligent Document Processing, IDP) verwendet OCR als grundlegende Technologie, um darüber hinaus Informationen zu Struktur, Beziehungen, Schlüsselwerten, Entitäten sowie andere dokumentorientierte Erkenntnisse mit einem erweiterten, auf maschinellem Lernen basierenden KI-Dienst wie Dokument Intelligenz zu extrahieren. Dokument Intelligenz enthält als OCR-Engine eine für Dokumente optimierte Version von Read und delegiert Aufgaben an andere Modelle für höherwertige Erkenntnisse. Verwenden Sie zur Extraktion von Text aus gescannten und digitalen Dokumenten das Dokument Intelligenz-Read-OCR.
Verwendung von OCR
Testen Sie die optische Zeichenerkennung mithilfe von Vision Studio. Folgen Sie anschließend einem der Links zur Lesen-Edition, die Ihren Anforderungen am besten entsprechen.
Von OCR unterstützte Sprachen
Beide heute in Azure KI Vision verfügbaren Read-Versionen unterstützen mehrere Sprachen für gedruckten und handschriftlichen Text. Die optische Zeichenerkennung für gedruckten Text umfasst Unterstützung für Englisch, Französisch, Deutsch, Italienisch, Portugiesisch, Spanisch, Chinesisch, Japanisch, Koreanisch, Russisch, Arabisch, Hindi und andere internationale Sprachen, die lateinische, kyrillische, arabische und Devanagari-Schriften verwenden. Bei handschriftlichem Text umfasst die OCR-Unterstützung Englisch, Chinesisch (vereinfacht), Französisch, Deutsch, Italienisch, Japanisch, Koreanisch, Portugiesisch und Spanisch.
Eine vollständige Liste finden Sie unter Sprachunterstützung für maschinelles Sehen.
Allgemeine OCR-Features
Das Read-OCR-Modell ist in Azure KI Vision und Dokument Intelligenz mit gemeinsamen Baselinefunktionen verfügbar, die für die entsprechenden Szenarien optimiert werden. Das Modell enthält die folgenden allgemeinen Features:
- Extraktion von gedrucktem und handschriftlichem Text in den unterstützten Sprachen
- Seiten, Textzeilen und Wörter mit Position und Zuverlässigkeitsbewertungen
- Unterstützung für gemischte Sprachen und gemischten Modus (gedruckter und handschriftlicher Text)
- Verfügbar als Docker-Container ohne Distribution für die lokale Bereitstellung
Verwenden der OCR-Cloud-APIs oder lokales Bereitstellen
Die Cloud-APIs sind die bevorzugte Option der meisten Kund*innen, da sie sich einfach integrieren und schnell produktiv einsetzen lassen. Azure und der Azure KI Vision-Dienst verarbeiten Anforderungen an Skalierung, Leistung, Datensicherheit und Compliance, während Sie sich auf die Erfüllung der Anforderungen Ihrer Kunden konzentrieren.
Für die lokale Bereitstellung ermöglicht der Read-Docker-Container die Bereitstellung der allgemein verfügbaren OCR-Funktionen von Azure KI Vision v3.2 in Ihrer lokalen Umgebung. Container eignen sich hervorragend für bestimmte Sicherheits- und Datengovernanceanforderungen.
Eingabeanforderungen
Die Lese-API nimmt Bilder und Dokumente als Eingabe entgegen. Die Bilder und Dokumente müssen die folgenden Anforderungen erfüllen:
- Unterstützte Dateiformate sind JPEG, PNG, BMP, PDF und TIFF.
- Für PDF- und TIFF-Dateien werden bis zu 2.000 Seiten (nur die ersten beiden Seiten für den Free-Tarif) verarbeitet.
- Die Dateigröße von Bildern muss weniger als 500 MB (4 MB beim Free-Tarif) betragen, und sie müssen eine Größe von mindestens 50 × 50 Pixel und höchstens 10.000 × 10.000 Pixel aufweisen. Für PDF-Dateien besteht keine Größenbeschränkung.
- Die Mindesthöhe des zu extrahierenden Texts beträgt 12 Pixel für ein Bild der Größe 1024 × 768. Dies entspricht in etwa Text mit einem 8-Punkt-Schriftgrad bei 150 DPI.
Hinweis
Sie brauchen ein Bild nicht für Textzeilen zuzuschneiden. Senden Sie das gesamte Bild an die Lese-API, dann wird der gesamte Text erkannt.
OCR-Datenschutz und -Sicherheit
Wie bei allen Azure KI Services müssen Entwickler, die den Azure KI Vision-Dienst nutzen, die Microsoft-Richtlinien zu Kundendaten beachten. Weitere Informationen finden Sie im Microsoft Trust Center auf der Seite zu Azure KI Services.
Nächste Schritte
- OCR für allgemeine Bilder (keine Dokumente): testen Sie den Schnellstart für die Bildanalyse-REST-API für Azure KI Vision 4.0 (Vorschau).
- OCR für PDF-, Office- und HTML-Dokumente und Dokumentbilder: beginnen Sie mit Read für Dokument Intelligenz.
- Suchen Sie die vorherige allgemein verfügbare Version? Lesen Sie Schnellstarts für Azure KI Vision 3.2 GA-SDK oder REST-API.