OCR: Optical Character Recognition (optische Zeichenerkennung)

Artikel
08/14/2023

OCR oder optische Zeichenerkennung wird auch als Texterkennung oder Textextraktion bezeichnet. Auf maschinellem Lernen basierende OCR-Techniken ermöglichen es Ihnen, gedruckten oder handgeschriebenen Text aus Bildern wie Postern, Straßenschildern und Produktetiketten sowie aus Dokumenten wie Artikeln, Berichten, Formularen und Rechnungen zu extrahieren. Der Text wird in der Regel in Form von Wörtern, Textzeilen und Absätzen oder Textblöcken extrahiert, was den Zugriff auf eine digitale Version des gescannten Texts ermöglicht. Dadurch wird die Notwendigkeit der manuellen Dateneingabe beseitigt oder deutlich verringert.

Die intelligente Dokumentverarbeitung (Intelligent Document Processing, IDP) verwendet OCR als grundlegende Technologie, um darüber hinaus Informationen zu Struktur, Beziehungen, Schlüsselwerten, Entitäten sowie andere dokumentorientierte Erkenntnisse mit einem erweiterten, auf maschinellem Lernen basierenden KI-Dienst wie Dokument Intelligenz zu extrahieren. Dokument Intelligenz enthält als OCR-Engine eine für Dokumente optimierte Version von Read und delegiert Aufgaben an andere Modelle für höherwertige Erkenntnisse. Verwenden Sie zur Extraktion von Text aus gescannten und digitalen Dokumenten das Dokument Intelligenz-Read-OCR.

OCR-Engine

Die Read OCR-Engine von Microsoft besteht aus mehreren erweiterten, auf maschinellem Lernen basierenden Modellen, die globale Sprachen unterstützen. Die Software kann gedruckten und handgeschriebenen Text extrahieren, einschließlich gemischter Sprachen und Schreibstile. Read ist für eine flexible Bereitstellung als Clouddienst und lokaler Container verfügbar. Seit der neuesten Vorschau ist das Modell auch als synchrone API für Szenarios mit einzelnen Bildern, die sich nicht in einem Dokument befinden, verfügbar. Dabei wurde die Leistung verbessert, um die Implementierung OCR-unterstützter Benutzeroberflächen zu vereinfachen.

Warnung

Die Legacy-OCR-API in v3.2-Vorgänge und die Texterkennung-API in v2.1-Vorgänge von Azure KI Vision werden nicht zur Verwendung empfohlen.

OCR-Editionen (Read)

Wichtig

Wählen Sie die Read-Edition aus, die Ihren Anforderungen am besten entspricht.

Eingabe	Beispiele	Read-Edition	Vorteil
Images: Allgemein, In-the-Wild-Images	Beschriftungen, Straßenschilder und Poster	OCR für Bilder (Version 4.0)	Optimiert für allgemeine Bilder, die keine Dokumente sind, mit einer leistungsstärkeren synchronen API, die die Einbettung von OCR in Ihre Benutzerszenarien erleichtert.
Dokumente: Digital und gescannt, einschließlich Images	Bücher, Artikel und Berichte	Lesemodell für Document Intelligence	Optimiert für gescannte und digitale Dokumente mit einer asynchronen API, um die intelligente Dokumentverarbeitung im großen Stil zu automatisieren.

Info zu Azure KI Vision v3.2 GA Read

Suchen Sie nach der neuesten Azure KI Vision v3.2 GA Read? Alle zukünftigen Read OCR-Erweiterungen sind Teil der beiden zuvor aufgeführten Dienste. Für Azure KI Vision 3.2 wird es keine weiteren Updates geben. Weitere Informationen finden Sie unter Aufrufen der Azure KI Vision 3.2-Lese-API (GA) und Schnellstart: Azure KI Vision v3.2 GA Read.

Verwendung von OCR

Testen Sie die optische Zeichenerkennung mithilfe von Vision Studio. Folgen Sie anschließend einem der Links zur Lesen-Edition, die Ihren Anforderungen am besten entsprechen.

Vision Studio testen

Screenshot: Read OCR demo in Vision Studio.

Von OCR unterstützte Sprachen

Beide heute in Azure KI Vision verfügbaren Read-Versionen unterstützen mehrere Sprachen für gedruckten und handschriftlichen Text. Die optische Zeichenerkennung für gedruckten Text umfasst Unterstützung für Englisch, Französisch, Deutsch, Italienisch, Portugiesisch, Spanisch, Chinesisch, Japanisch, Koreanisch, Russisch, Arabisch, Hindi und andere internationale Sprachen, die lateinische, kyrillische, arabische und Devanagari-Schriften verwenden. Bei handschriftlichem Text umfasst die OCR-Unterstützung Englisch, Chinesisch (vereinfacht), Französisch, Deutsch, Italienisch, Japanisch, Koreanisch, Portugiesisch und Spanisch.

Eine vollständige Liste finden Sie unter Sprachunterstützung für maschinelles Sehen.

Allgemeine OCR-Features

Das Read-OCR-Modell ist in Azure KI Vision und Dokument Intelligenz mit gemeinsamen Baselinefunktionen verfügbar, die für die entsprechenden Szenarien optimiert werden. Das Modell enthält die folgenden allgemeinen Features:

Extraktion von gedrucktem und handschriftlichem Text in den unterstützten Sprachen
Seiten, Textzeilen und Wörter mit Position und Zuverlässigkeitsbewertungen
Unterstützung für gemischte Sprachen und gemischten Modus (gedruckter und handschriftlicher Text)
Verfügbar als Docker-Container ohne Distribution für die lokale Bereitstellung

Verwenden der OCR-Cloud-APIs oder lokales Bereitstellen

Die Cloud-APIs sind die bevorzugte Option der meisten Kund*innen, da sie sich einfach integrieren und schnell produktiv einsetzen lassen. Azure und der Azure KI Vision-Dienst verarbeiten Anforderungen an Skalierung, Leistung, Datensicherheit und Compliance, während Sie sich auf die Erfüllung der Anforderungen Ihrer Kunden konzentrieren.

Für die lokale Bereitstellung ermöglicht der Read-Docker-Container die Bereitstellung der allgemein verfügbaren OCR-Funktionen von Azure KI Vision v3.2 in Ihrer lokalen Umgebung. Container eignen sich hervorragend für bestimmte Sicherheits- und Datengovernanceanforderungen.

OCR-Datenschutz und -Sicherheit

Wie bei allen Azure KI Services müssen Entwickler, die den Azure KI Vision-Dienst nutzen, die Microsoft-Richtlinien zu Kundendaten beachten. Weitere Informationen finden Sie im Microsoft Trust Center auf der Seite zu Azure KI Services.

Nächste Schritte

OCR für allgemeine Bilder (keine Dokumente): testen Sie den Schnellstart für die Bildanalyse-REST-API für Azure KI Vision 4.0 (Vorschau).
OCR für PDF-, Office- und HTML-Dokumente und Dokumentbilder: beginnen Sie mit Read für Dokument Intelligenz.
Suchen Sie die vorherige allgemein verfügbare Version? Lesen Sie Schnellstarts für Azure KI Vision 3.2 GA-SDK oder REST-API.