Aufrufen der Azure KI Vision 3.2-Lese-API (GA)

Diese Anleitung demonstriert, wie Sie die allgemein verfügbare Lese-API für Version 3.2 zum Extrahieren von Text aus Bildern aufrufen. Sie erfahren mehr über die verschiedenen Möglichkeiten für die Konfiguration dieser API entsprechend Ihren Anforderungen. In diesem Leitfaden wird davon ausgegangen, dass Sie bereits eine Vision-Ressource erstellt und einen Schlüssel und eine Endpunkt-URL abgerufen haben. Falls nicht, führen Sie die Schritte in dieser Schnellstartanleitung aus, um loszulegen.

OCR-Editionen (Read)

Wichtig

Wählen Sie die Read-Edition aus, die Ihren Anforderungen am besten entspricht.

Eingabe Beispiele Read-Edition Vorteil
Images: Allgemein, In-the-Wild-Images Beschriftungen, Straßenschilder und Poster OCR für Bilder (Version 4.0) Optimiert für allgemeine Bilder, die keine Dokumente sind, mit einer leistungsstärkeren synchronen API, die die Einbettung von OCR in Ihre Benutzerszenarien erleichtert.
Dokumente: Digital und gescannt, einschließlich Images Bücher, Artikel und Berichte Lesemodell für Document Intelligence Optimiert für gescannte und digitale Dokumente mit einer asynchronen API, um die intelligente Dokumentverarbeitung im großen Stil zu automatisieren.

Info zu Azure KI Vision v3.2 GA Read

Suchen Sie nach der neuesten Azure KI Vision v3.2 GA Read? Alle zukünftigen Read OCR-Erweiterungen sind Teil der beiden zuvor aufgeführten Dienste. Für Azure KI Vision 3.2 wird es keine weiteren Updates geben. Weitere Informationen finden Sie unter Aufrufen der Azure KI Vision 3.2-Lese-API (GA) und Schnellstart: Azure KI Vision v3.2 GA Read.

Eingabeanforderungen

Der API-Aufruf Read nimmt Bilder und Dokumente als Eingabe entgegen. Es bestehen die folgenden Anforderungen:

  • Unterstützte Dateiformate: JPEG, PNG, BMP, PDF und TIFF
  • Für PDF- und TIFF-Dateien werden bis zu 2.000 Seiten (nur die ersten beiden Seiten für den Free-Tarif) verarbeitet.
  • Die Dateigröße von Bildern muss weniger als 500 MB (4 MB beim Free-Tarif) betragen, und sie müssen eine Größe von mindestens 50 x 50 Pixel und höchstens 10.000 × 10.000 Pixel aufweisen. Für PDF-Dateien besteht keine Größenbeschränkung.
  • Die Mindesthöhe des zu extrahierenden Texts beträgt 12 Pixel für ein Bild mit 1024 × 768. Dies entspricht in etwa Text mit einem 8-Punkt-Schriftgrad bei 150 DPI.

Hinweis

Sie brauchen ein Bild nicht für Textzeilen zuzuschneiden. Senden Sie das gesamte Bild an die Lese-API, dann werden alle Texte erkannt.

Festlegen der Art der Datenverarbeitung (optional)

Angeben des OCR-Modells

Standardmäßig verwendet der Dienst das neueste GA-Modell (General Availability, allgemeine Verfügbarkeit), um Text zu extrahieren. Ab Read 3.2 ermöglicht ein Parameter model-version die Auswahl zwischen dem GA-Modell und Vorschaumodellen für eine bestimmte API-Version. Das von Ihnen angegebene Modell wird verwendet, um Text über den Read-Vorgang zu extrahieren.

Wenn Sie den Read-Vorgang einsetzen, verwenden Sie die folgenden Werte für den optionalen Parameter model-version.

Wert Verwendetes Modell
Nicht bereitgestellt Neuestes GA-Modell
latest Neuestes GA-Modell
2022-04-30 Neuestes GA-Modell. 164 Sprachen für Drucktext und 9 Sprachen für handschriftlichen Text sowie mehrere Verbesserungen bei Qualität und Leistung
2022-01-30-preview Mit dem Vorschaumodell wird Drucktextunterstützung für Hindi, Arabisch und verwandte Sprachen hinzugefügt. Bei handschriftlichem Text wird Unterstützung für Japanisch und Koreanisch hinzugefügt.
2021-09-30-preview Das Vorschaumodell fügt Unterstützung zum Drucken von Text für russische und andere kyrillische Sprachen hinzu. Für handschriftlichen Text wird Unterstützung für Chinesisch (vereinfacht), Französisch, Deutsch, Italienisch, Portugiesisch und Spanisch hinzugefügt.
2021-04-12 GA-Modell 2021

Eingabesprache

Standardmäßig extrahiert der Dienst sämtlichen Text aus Ihren Bildern oder Dokumenten, einschließlich gemischter Sprachen. Der Read-Vorgang weist einen optionalen Anforderungsparameter für die Sprache auf. Geben Sie nur dann einen Sprachcode an, wenn Sie erzwingen möchten, dass das Dokument in dieser spezifischen Sprache verarbeitet wird. Andernfalls gibt der Dienst möglicherweise unvollständigen und fehlerhaften Text zurück.

Ausgabe der natürlichen Leserichtung (nur lateinische Sprachen)

Standardmäßig gibt der Dienst die Textzeilen von links nach rechts aus. Optional können Sie über den Anforderungsparameter readingOrder mithilfe der Option natural eine benutzerfreundlichere Ausgabe der Lesereihenfolge festlegen, wie im folgenden Beispiel gezeigt. Dieses Feature wird nur für lateinische Sprachen unterstützt.

OCR Reading order example

Auswählen von Seiten oder Seitenbereichen für die Textextraktion

Standardmäßig extrahiert der Dienst Text von allen Seiten in den Dokumenten. Verwenden Sie optional den Anforderungsparameter pages zur Angabe von Seitenzahlen oder Seitenbereichen, um Text nur von diesen Seiten zu extrahieren. Das folgende Beispiel zeigt ein Dokument mit 10 Seiten, wobei für beide Fälle – alle Seiten (1-10) und ausgewählte Seiten (3-6) – Text extrahiert wurde.

Selected pages output

Übermitteln von Daten an den Dienst

Sie übermitteln entweder ein lokales Bild oder ein Remotebild an die Lese-API. Bei einem lokalen Bild platzieren Sie die binären Bilddaten im HTTP-Anforderungstext. Bei einem lokalen Bild geben Sie die URL des Bilds an, indem Sie den Anforderungstext wie folgt formatieren: {"url":"http://example.com/images/test.jpg"}.

Beim Read-Aufruf der Read-API wird ein Bild oder PDF-Dokument als Eingabe erfasst und asynchron Text extrahiert.

https://{endpoint}/vision/v3.2/read/analyze[?language][&pages][&readingOrder]

Der Aufruf wird mit einem Antwortheaderfeld namens Operation-Location zurückgegeben. Der Operation-Location-Wert ist eine URL, die die Vorgangs-ID enthält, die im nächsten Schritt verwendet werden soll.

Antwortheader Beispielwert
Operation-Location https://cognitiveservice/vision/v3.2/read/analyzeResults/49a36324-fc4b-4387-aa06-090cfbf0064f

Hinweis

Abrechnung

Auf der Seite Azure KI Vision – Preise finden Sie den Tarif für die Lese-API. Jedes analysierte Bild oder jede analysierte Seite ist eine Transaktion. Wenn Sie den Vorgang mit einem PDF- oder TIFF-Dokument mit 100 Seiten aufrufen, wird dies vom Read-Vorgang als 100 Transaktionen gezählt und Ihnen werden 100 Transaktionen in Rechnung gestellt. Wenn Sie für den Vorgang 50 Aufrufe durchgeführt haben und jeder Aufruf ein Dokument mit 100 Seiten übermittelt hat, werden Ihnen 5000 Transaktionen (50 x 100) in Rechnung gestellt.

Abrufen von Ergebnissen aus dem Dienst

Der zweite Schritt umfasst das Aufrufen des Vorgangs Get Read Results. Dieser Vorgang erfasst die Vorgangs-ID, die beim Read-Vorgang erstellt wurde, als Eingabe.

https://{endpoint}/vision/v3.2/read/analyzeResults/{operationId}

Er gibt eine JSON-Antwort zurück, die ein Status-Feld mit den folgenden möglichen Werten enthält.

Wert Bedeutung
notStarted Der Vorgang wurde noch nicht gestartet.
running Der Vorgang wird verarbeitet.
failed Beim Vorgang ist ein Fehler aufgetreten.
succeeded Der Vorgang war erfolgreich.

Sie rufen diesen Vorgang iterativ auf, bis er mit dem Wert succeeded (erfolgreich) zurückgegeben wird. Verwenden Sie ein Intervall von 1 bis 2 Sekunden, um zu vermeiden, dass die Rate der Anforderungen pro Sekunde (RPS) überschritten wird.

Hinweis

Im kostenlosen Tarif wird die Anforderungsrate auf 20 Aufrufe pro Minute beschränkt. Im kostenpflichtige Tarif sind 30 Anforderungen pro Sekunde (Requests per Second, RPS) zulässig, die auf Anforderung erhöht werden können. Notieren Sie sich ihre Azure-Ressourcen-ID und Ihre Region, und öffnen Sie ein Azure-Supportticket, oder wenden Sie sich an Ihr Kontoteam, um eine höhere RPS-Rate (Request per Second, Anforderungen pro Sekunde) anzufordern.

Wenn das Feld Status den Wert succeeded aufweist, enthält die JSON-Antwort den extrahierten Textinhalt aus Ihrem Bild oder Dokument. In der JSON-Antwort werden die ursprünglichen Zeilengruppierungen der erkannten Wörter beibehalten. Sie enthält die extrahierten Textzeilen und die zugehörigen Begrenzungsrahmenkoordinaten. Jede Textzeile enthält alle extrahierten Wörter mit den zugehörigen Koordinaten und Zuverlässigkeitsbewertungen.

Hinweis

Die an den Vorgang Read übermittelten Daten werden vorübergehend verschlüsselt, für eine kurze Dauer im Ruhezustand gespeichert und dann gelöscht. Dadurch können Ihre Anwendungen den extrahierten Text als Teil der Dienstantwort abrufen.

JSON-Beispielausgabe

Eine erfolgreiche JSON-Antwort sieht in etwa wie folgendes Beispiel aus:

{
  "status": "succeeded",
  "createdDateTime": "2021-02-04T06:32:08.2752706+00:00",
  "lastUpdatedDateTime": "2021-02-04T06:32:08.7706172+00:00",
  "analyzeResult": {
    "version": "3.2",
    "readResults": [
      {
        "page": 1,
        "angle": 2.1243,
        "width": 502,
        "height": 252,
        "unit": "pixel",
        "lines": [
          {
            "boundingBox": [
              58,
              42,
              314,
              59,
              311,
              123,
              56,
              121
            ],
            "text": "Tabs vs",
            "appearance": {
              "style": {
                "name": "handwriting",
                "confidence": 0.96
              }
            },
            "words": [
              {
                "boundingBox": [
                  68,
                  44,
                  225,
                  59,
                  224,
                  122,
                  66,
                  123
                ],
                "text": "Tabs",
                "confidence": 0.933
              },
              {
                "boundingBox": [
                  241,
                  61,
                  314,
                  72,
                  314,
                  123,
                  239,
                  122
                ],
                "text": "vs",
                "confidence": 0.977
              }
            ]
          }
        ]
      }
    ]
  }
}

Handschriftliche Klassifizierung für Textzeilen (nur lateinische Sprachen)

Die Antwort enthält eine Klassifizierung, ob jede Textzeile handschriftlich formatiert ist oder nicht, sowie eine Konfidenzbewertung. Dieses Feature ist nur für lateinische Sprachen verfügbar. Das folgende Beispiel zeigt die handschriftliche Klassifizierung für den Text im Bild.

OCR handwriting classification example

Nächste Schritte