Schnellstart: Optische Zeichenerkennung (OCR)

Hier erhalten Sie Informationen zu den ersten Schritten mit der Read-REST-API oder den Clientbibliotheken für maschinelles Sehen. Die Lese-API stellt KI-Algorithmen zum Extrahieren von Text aus Bildern und zur Rückgabe als strukturierte Zeichenfolgen bereit. Führen Sie die nachfolgenden Schritte zum Installieren eines Pakets in Ihrer Anwendung aus, und testen Sie den Beispielcode für grundlegende Aufgaben.

Verwenden Sie die OCR-Clientbibliothek, um gedruckten und handschriftlichen Text aus einem Remotebild zu lesen. Der OCR-Dienst kann sichtbaren Text in einem Bild lesen und in eine Zeichenfolge konvertieren. Weitere Informationen zur Texterkennung finden Sie in der Übersicht Optische Zeichenerkennung (OCR). Der Code in diesem Abschnitt verwendet die neueste Computer Vision SDK-Version für Read 3.0.

Tipp

Sie können auch Text aus einem lokalen Bild extrahieren. Sehen Sie sich die ComputerVisionClient-Methoden an, etwa ReadInStreamAsync. Alternativ finden Sie im Beispielcode auf GitHub Szenarien zu lokalen Bildern.

Referenzdokumentation | Quellcode der Bibliothek | Paket (NuGet) | Beispiele

Voraussetzungen

  • Azure-Abonnement: Kostenloses Azure-Konto
  • Die Visual Studio-IDE oder die aktuelle Version von .NET Core.
  • Sobald Sie über Ihr Azure-Abonnement verfügen, können Sie im Azure-Portal eine Ressource für maschinelles Sehen erstellen , um Ihren Schlüssel und Endpunkt zu erhalten. Klicken Sie nach Abschluss der Bereitstellung auf Zu Ressource wechseln.
    • Sie benötigen den Schlüssel und Endpunkt der von Ihnen erstellten Ressource, um eine Verbindung Ihrer Anwendung mit dem Dienst für maschinelles Sehen herzustellen. Der Schlüssel und der Endpunkt werden weiter unten in der Schnellstartanleitung in den Code eingefügt.
    • Sie können den kostenlosen Tarif (F0) verwenden, um den Dienst zu testen, und später für die Produktion auf einen kostenpflichtigen Tarif upgraden.

Lesen von gedrucktem und handschriftlichem Text

  1. Erstellen einer neuen C#-Anwendung

    Erstellen Sie mit Visual Studio eine neue .NET Core-Anwendung.

    Installieren der Clientbibliothek

    Installieren Sie nach der Erstellung eines neuen Projekts die Clientbibliothek, indem Sie im Projektmappen-Explorer mit der rechten Maustaste auf die Projektmappe klicken und NuGet-Pakete verwalten auswählen. Wählen Sie im daraufhin geöffneten Paket-Manager die Option Durchsuchen aus, aktivieren Sie das Kontrollkästchen Vorabversion einbeziehen, und suchen Sie nach Microsoft.Azure.CognitiveServices.Vision.ComputerVision. Wählen Sie die Version 7.0.0 und anschließend Installieren aus.

  2. Suchen Sie den Schlüssel und Endpunkt.

    Öffnen Sie das Azure-Portal. Wenn die im Abschnitt Voraussetzungen erstellte Ressource für maschinelles Sehen erfolgreich bereitgestellt wurde, klicken Sie unter Nächste Schritte auf die Schaltfläche Zu Ressource wechseln. Schlüssel und Endpunkt finden Sie auf der Seite mit dem Schlüssel und dem Endpunkt der Ressource unter Ressourcenverwaltung.

  3. Öffnen Sie aus dem Projektverzeichnis die Datei Program.cs in Ihrem bevorzugten Editor oder Ihrer bevorzugten IDE. Ersetzen Sie die Inhalte von Program.cs durch den folgenden Code.

    using System;
    using System.Collections.Generic;
    using Microsoft.Azure.CognitiveServices.Vision.ComputerVision;
    using Microsoft.Azure.CognitiveServices.Vision.ComputerVision.Models;
    using System.Threading.Tasks;
    using System.IO;
    using Newtonsoft.Json;
    using Newtonsoft.Json.Linq;
    using System.Threading;
    using System.Linq;
    
    namespace ComputerVisionQuickstart
    {
        class Program
        {
            // Add your Computer Vision subscription key and endpoint
            static string subscriptionKey = "PASTE_YOUR_COMPUTER_VISION_SUBSCRIPTION_KEY_HERE";
            static string endpoint = "PASTE_YOUR_COMPUTER_VISION_ENDPOINT_HERE";
    
            private const string READ_TEXT_URL_IMAGE = "https://raw.githubusercontent.com/Azure-Samples/cognitive-services-sample-data-files/master/ComputerVision/Images/printed_text.jpg";
    
            static void Main(string[] args)
            {
                Console.WriteLine("Azure Cognitive Services Computer Vision - .NET quickstart example");
                Console.WriteLine();
    
                ComputerVisionClient client = Authenticate(endpoint, subscriptionKey);
    
                // Extract text (OCR) from a URL image using the Read API
                ReadFileUrl(client, READ_TEXT_URL_IMAGE).Wait();
            }
    
            public static ComputerVisionClient Authenticate(string endpoint, string key)
            {
                ComputerVisionClient client =
                  new ComputerVisionClient(new ApiKeyServiceClientCredentials(key))
                  { Endpoint = endpoint };
                return client;
            }
    
            public static async Task ReadFileUrl(ComputerVisionClient client, string urlFile)
            {
                Console.WriteLine("----------------------------------------------------------");
                Console.WriteLine("READ FILE FROM URL");
                Console.WriteLine();
    
                // Read text from URL
                var textHeaders = await client.ReadAsync(urlFile);
                // After the request, get the operation location (operation ID)
                string operationLocation = textHeaders.OperationLocation;
                Thread.Sleep(2000);
    
                // Retrieve the URI where the extracted text will be stored from the Operation-Location header.
                // We only need the ID and not the full URL
                const int numberOfCharsInOperationId = 36;
                string operationId = operationLocation.Substring(operationLocation.Length - numberOfCharsInOperationId);
    
                // Extract the text
                ReadOperationResult results;
                Console.WriteLine($"Extracting text from URL file {Path.GetFileName(urlFile)}...");
                Console.WriteLine();
                do
                {
                    results = await client.GetReadResultAsync(Guid.Parse(operationId));
                }
                while ((results.Status == OperationStatusCodes.Running ||
                    results.Status == OperationStatusCodes.NotStarted));
    
                // Display the found text.
                Console.WriteLine();
                var textUrlFileResults = results.AnalyzeResult.ReadResults;
                foreach (ReadResult page in textUrlFileResults)
                {
                    foreach (Line line in page.Lines)
                    {
                        Console.WriteLine(line.Text);
                    }
                }
                Console.WriteLine();
            }
    
        }
    }
    
  4. Fügen Sie Ihren Schlüssel und Endpunkt an der angegeben Stelle in den Code ein. Der Maschinelles Sehen-Endpunkt hat das Format https://<your_computer_vision_resource_name>.cognitiveservices.azure.com/.

    Wichtig

    Denken Sie daran, den Schlüssel aus Ihrem Code zu entfernen, wenn Sie fertig sind, und ihn niemals zu veröffentlichen. Verwenden Sie für die Produktion eine sichere Art der Speicherung und des Zugriffs auf Ihre Anmeldeinformationen wieAzure Key Vault. Weitere Informationen finden Sie im Cognitive Services-Artikel zur Sicherheit.

  5. Lesen Sie optional die Informationen zum Angeben der Modellversion. Wenn Sie etwa das neueste allgemein verfügbare Modell explizit angeben möchten, bearbeiten Sie den Aufruf ReadAsync wie gezeigt. Wenn Sie den Parameter überspringen oder "latest" verwenden, wird automatisch das neueste allgemein verfügbare Modell verwendet.

      // Read text from URL with a specific model version
      var textHeaders = await client.ReadAsync(urlFile,null,null,"2022-04-30");
    
  6. Führen Sie die Anwendung aus.

    Klicken Sie oben im Fenster der IDE auf die Schaltfläche Debuggen.


Ausgabe

Azure Cognitive Services Computer Vision - .NET quickstart example

----------------------------------------------------------
READ FILE FROM URL

Extracting text from URL file printed_text.jpg...


Nutrition Facts Amount Per Serving
Serving size: 1 bar (40g)
Serving Per Package: 4
Total Fat 13g
Saturated Fat 1.5g
Amount Per Serving
Trans Fat 0g
Calories 190
Cholesterol 0mg
ories from Fat 110
Sodium 20mg
nt Daily Values are based on Vitamin A 50%
calorie diet.

Bereinigen von Ressourcen

Wenn Sie ein Cognitive Services-Abonnement bereinigen und entfernen möchten, können Sie die Ressource oder die Ressourcengruppe löschen. Wenn Sie die Ressourcengruppe löschen, werden auch alle anderen Ressourcen gelöscht, die ihr zugeordnet sind.

Nächste Schritte

In dieser Schnellstartanleitung haben Sie erfahren, wie Sie die OCR-Clientbibliothek installieren und die Lese-API verwenden. Informieren Sie sich als Nächstes ausführlicher über die Funktionen der Lese-API.

Verwenden Sie die OCR-Clientbibliothek, um gedruckten und handschriftlichen Text aus einem Remotebild zu lesen. Der OCR-Dienst kann sichtbaren Text in einem Bild lesen und in eine Zeichenfolge konvertieren. Weitere Informationen zur Texterkennung finden Sie in der Übersicht Optische Zeichenerkennung (OCR).

Tipp

Sie können auch Text aus einem lokalen Bild auslesen. Sehen Sie sich die ComputerVisionClientOperationsMixin-Methoden an, etwa read_in_stream. Alternativ finden Sie im Beispielcode auf GitHub Szenarien zu lokalen Bildern.

Referenzdokumentation | Quellcode der Bibliothek | Paket (PiPy) | Beispiele

Voraussetzungen

  • Azure-Abonnement: Kostenloses Azure-Konto

  • Python 3.x

    • Ihre Python-Installation sollte pip enthalten. Sie können überprüfen, ob pip installiert ist, indem Sie pip --version in der Befehlszeile ausführen. Installieren Sie die aktuelle Python-Version, um pip zu erhalten.
  • Sobald Sie über Ihr Azure-Abonnement verfügen, können Sie im Azure-Portal eine Ressource für maschinelles Sehen erstellen, um Ihren Schlüssel und Endpunkt zu erhalten. Klicken Sie nach Abschluss der Bereitstellung auf Zu Ressource wechseln.

    • Sie benötigen den Schlüssel und Endpunkt der von Ihnen erstellten Ressource, um eine Verbindung Ihrer Anwendung mit dem Dienst für maschinelles Sehen herzustellen. Der Schlüssel und der Endpunkt werden weiter unten in der Schnellstartanleitung in den Code eingefügt.
    • Sie können den kostenlosen Tarif (F0) verwenden, um den Dienst zu testen, und später für die Produktion auf einen kostenpflichtigen Tarif upgraden.

Lesen von gedrucktem und handschriftlichem Text

  1. Installieren der Clientbibliothek

    Sie können die Clientbibliothek wie folgt installieren:

    pip install --upgrade azure-cognitiveservices-vision-computervision
    

    Installieren Sie außerdem die Pillow-Bibliothek.

    pip install pillow
    
  2. Erstellen einer neuen Python-Anwendung

    Erstellen Sie eine neue Python-Datei (beispielsweise quickstart-file.py). Öffnen Sie sie anschließend in Ihrem bevorzugten Editor oder Ihrer bevorzugten IDE.

  3. Suchen Sie den Schlüssel und Endpunkt.

    Öffnen Sie das Azure-Portal. Wenn die im Abschnitt Voraussetzungen erstellte Ressource für maschinelles Sehen erfolgreich bereitgestellt wurde, klicken Sie unter Nächste Schritte auf die Schaltfläche Zu Ressource wechseln. Schlüssel und Endpunkt finden Sie auf der Seite mit dem Schlüssel und dem Endpunkt der Ressource unter Ressourcenverwaltung.

  4. Ersetzen Sie den Inhalt von quickstart-file.py durch den folgenden Code:

    from azure.cognitiveservices.vision.computervision import ComputerVisionClient
    from azure.cognitiveservices.vision.computervision.models import OperationStatusCodes
    from azure.cognitiveservices.vision.computervision.models import VisualFeatureTypes
    from msrest.authentication import CognitiveServicesCredentials
    
    from array import array
    import os
    from PIL import Image
    import sys
    import time
    
    '''
    Authenticate
    Authenticates your credentials and creates a client.
    '''
    subscription_key = "PASTE_YOUR_COMPUTER_VISION_SUBSCRIPTION_KEY_HERE"
    endpoint = "PASTE_YOUR_COMPUTER_VISION_ENDPOINT_HERE"
    
    computervision_client = ComputerVisionClient(endpoint, CognitiveServicesCredentials(subscription_key))
    '''
    END - Authenticate
    '''
    
    '''
    OCR: Read File using the Read API, extract text - remote
    This example will extract text in an image, then print results, line by line.
    This API call can also extract handwriting style text (not shown).
    '''
    print("===== Read File - remote =====")
    # Get an image with text
    read_image_url = "https://raw.githubusercontent.com/MicrosoftDocs/azure-docs/master/articles/cognitive-services/Computer-vision/Images/readsample.jpg"
    
    # Call API with URL and raw response (allows you to get the operation location)
    read_response = computervision_client.read(read_image_url,  raw=True)
    
    # Get the operation location (URL with an ID at the end) from the response
    read_operation_location = read_response.headers["Operation-Location"]
    # Grab the ID from the URL
    operation_id = read_operation_location.split("/")[-1]
    
    # Call the "GET" API and wait for it to retrieve the results 
    while True:
        read_result = computervision_client.get_read_result(operation_id)
        if read_result.status not in ['notStarted', 'running']:
            break
        time.sleep(1)
    
    # Print the detected text, line by line
    if read_result.status == OperationStatusCodes.succeeded:
        for text_result in read_result.analyze_result.read_results:
            for line in text_result.lines:
                print(line.text)
                print(line.bounding_box)
    print()
    '''
    END - Read File - remote
    '''
    
    print("End of Computer Vision quickstart.")
    
    
  5. Fügen Sie Ihren Schlüssel und Endpunkt an der angegeben Stelle in den Code ein. Der Maschinelles Sehen-Endpunkt hat das Format https://<your_computer_vision_resource_name>.cognitiveservices.azure.com/.

    Wichtig

    Denken Sie daran, den Schlüssel aus Ihrem Code zu entfernen, wenn Sie fertig sind, und ihn niemals zu veröffentlichen. Verwenden Sie für die Produktion eine sichere Art der Speicherung und des Zugriffs auf Ihre Anmeldeinformationen wieAzure Key Vault. Weitere Informationen finden Sie im Cognitive Services-Artikel zur Sicherheit.

  6. Lesen Sie optional die Informationen zum Angeben der Modellversion. Wenn Sie etwa das neueste allgemein verfügbare Modell explizit angeben möchten, bearbeiten Sie die Anweisung read wie gezeigt. Wenn Sie den Parameter überspringen oder "latest" verwenden, wird automatisch das neueste allgemein verfügbare Modell verwendet.

       # Call API with URL and raw response (allows you to get the operation location)
       read_response = computervision_client.read(read_image_url,  raw=True, model_version="2022-04-30")
    
  7. Führen Sie die Anwendung mit dem Befehl python für die Schnellstartdatei aus.

    python quickstart-file.py
    

Ausgabe

===== Read File - remote =====
The quick brown fox jumps
[38.0, 650.0, 2572.0, 699.0, 2570.0, 854.0, 37.0, 815.0]
Over
[184.0, 1053.0, 508.0, 1044.0, 510.0, 1123.0, 184.0, 1128.0]
the lazy dog!
[639.0, 1011.0, 1976.0, 1026.0, 1974.0, 1158.0, 637.0, 1141.0]

End of Computer Vision quickstart.

Bereinigen von Ressourcen

Wenn Sie ein Cognitive Services-Abonnement bereinigen und entfernen möchten, können Sie die Ressource oder die Ressourcengruppe löschen. Wenn Sie die Ressourcengruppe löschen, werden auch alle anderen Ressourcen gelöscht, die ihr zugeordnet sind.

Nächste Schritte

In dieser Schnellstartanleitung haben Sie erfahren, wie Sie die OCR-Clientbibliothek installieren und die Lese-API verwenden. Informieren Sie sich als Nächstes ausführlicher über die Funktionen der Lese-API.

Verwenden Sie die Client Bibliothek zur optischen Zeichenerkennung, um gedruckten und handschriftlichen Text mit der Read-API zu lesen. Der OCR-Dienst kann sichtbaren Text in einem Bild lesen und in eine Zeichenfolge konvertieren. Weitere Informationen zur Texterkennung finden Sie in der Übersicht Optische Zeichenerkennung (OCR).

Tipp

Sie können auch Text aus einem lokalen Bild auslesen. Sehen Sie sich die ComputerVisionClient-Methoden an, etwa readInStream. Alternativ finden Sie im Beispielcode auf GitHub Szenarien zu lokalen Bildern.

Referenzdokumentation | Quellcode der Bibliothek | Paket (npm) | Beispiele

Voraussetzungen

  • Azure-Abonnement: Kostenloses Azure-Konto
  • Die aktuelle Version von Node.js
  • Sobald Sie über Ihr Azure-Abonnement verfügen, können Sie im Azure-Portal eine Ressource für maschinelles Sehen erstellen , um Ihren Schlüssel und Endpunkt zu erhalten. Klicken Sie nach Abschluss der Bereitstellung auf Zu Ressource wechseln.
    • Sie benötigen den Schlüssel und Endpunkt der von Ihnen erstellten Ressource, um eine Verbindung Ihrer Anwendung mit dem Dienst für maschinelles Sehen herzustellen. Der Schlüssel und der Endpunkt werden weiter unten in der Schnellstartanleitung in den Code eingefügt.
    • Sie können den kostenlosen Tarif (F0) verwenden, um den Dienst zu testen, und später für die Produktion auf einen kostenpflichtigen Tarif upgraden.

Lesen von gedrucktem und handschriftlichem Text

  1. Erstellen Sie eine neue Node.js-Anwendung.

    Erstellen Sie in einem Konsolenfenster (etwa cmd, PowerShell oder Bash) ein neues Verzeichnis für Ihre App, und rufen Sie es auf.

    mkdir myapp && cd myapp
    

    Führen Sie den Befehl npm init aus, um eine Knotenanwendung mit der Datei package.json zu erstellen.

    npm init
    

    Installieren der Clientbibliothek

    Installieren Sie die NPM-Pakete ms-rest-azure und @azure/cognitiveservices-computervision.

    npm install @azure/cognitiveservices-computervision
    

    Installieren Sie außerdem das asynchrone Modul:

    npm install async
    

    Die Datei package.json Ihrer App wird mit den Abhängigkeiten aktualisiert.

    Erstellen Sie die neue Datei index.js, und öffnen Sie sie in einem Text-Editor.

  2. Suchen Sie den Schlüssel und Endpunkt.

    Öffnen Sie das Azure-Portal. Wenn die im Abschnitt Voraussetzungen erstellte Ressource für maschinelles Sehen erfolgreich bereitgestellt wurde, klicken Sie unter Nächste Schritte auf die Schaltfläche Zu Ressource wechseln. Schlüssel und Endpunkt finden Sie auf der Seite mit dem Schlüssel und dem Endpunkt der Ressource unter Ressourcenverwaltung.

  3. Fügen Sie den folgenden Code in Ihre index.js-Datei ein.

    'use strict';
    
    const async = require('async');
    const fs = require('fs');
    const https = require('https');
    const path = require("path");
    const createReadStream = require('fs').createReadStream
    const sleep = require('util').promisify(setTimeout);
    const ComputerVisionClient = require('@azure/cognitiveservices-computervision').ComputerVisionClient;
    const ApiKeyCredentials = require('@azure/ms-rest-js').ApiKeyCredentials;
    /**
     * AUTHENTICATE
     * This single client is used for all examples.
     */
    const key = 'PASTE_YOUR_COMPUTER_VISION_SUBSCRIPTION_KEY_HERE';
    const endpoint = 'PASTE_YOUR_COMPUTER_VISION_ENDPOINT_HERE';
    
    const computerVisionClient = new ComputerVisionClient(
      new ApiKeyCredentials({ inHeader: { 'Ocp-Apim-Subscription-Key': key } }), endpoint);
    /**
     * END - Authenticate
     */
    
    function computerVision() {
      async.series([
        async function () {
    
          /**
           * OCR: READ PRINTED & HANDWRITTEN TEXT WITH THE READ API
           * Extracts text from images using OCR (optical character recognition).
           */
          console.log('-------------------------------------------------');
          console.log('READ PRINTED, HANDWRITTEN TEXT AND PDF');
          console.log();
    
          // URL images containing printed and/or handwritten text. 
          // The URL can point to image files (.jpg/.png/.bmp) or multi-page files (.pdf, .tiff).
          const printedTextSampleURL = 'https://raw.githubusercontent.com/Azure-Samples/cognitive-services-sample-data-files/master/ComputerVision/Images/printed_text.jpg';
    
          // Recognize text in printed image from a URL
          console.log('Read printed text from URL...', printedTextSampleURL.split('/').pop());
          const printedResult = await readTextFromURL(computerVisionClient, printedTextSampleURL);
          printRecText(printedResult);
    
          // Perform read and await the result from URL
          async function readTextFromURL(client, url) {
            // To recognize text in a local image, replace client.read() with readTextInStream() as shown:
            let result = await client.read(url);
            // Operation ID is last path segment of operationLocation (a URL)
            let operation = result.operationLocation.split('/').slice(-1)[0];
    
            // Wait for read recognition to complete
            // result.status is initially undefined, since it's the result of read
            while (result.status !== "succeeded") { await sleep(1000); result = await client.getReadResult(operation); }
            return result.analyzeResult.readResults; // Return the first page of result. Replace [0] with the desired page if this is a multi-page file such as .pdf or .tiff.
          }
    
          // Prints all text from Read result
          function printRecText(readResults) {
            console.log('Recognized text:');
            for (const page in readResults) {
              if (readResults.length > 1) {
                console.log(`==== Page: ${page}`);
              }
              const result = readResults[page];
              if (result.lines.length) {
                for (const line of result.lines) {
                  console.log(line.words.map(w => w.text).join(' '));
                }
              }
              else { console.log('No recognized text.'); }
            }
          }
    
          /**
           * 
           * Download the specified file in the URL to the current local folder
           * 
           */
          function downloadFilesToLocal(url, localFileName) {
            return new Promise((resolve, reject) => {
              console.log('--- Downloading file to local directory from: ' + url);
              const request = https.request(url, (res) => {
                if (res.statusCode !== 200) {
                  console.log(`Download sample file failed. Status code: ${res.statusCode}, Message: ${res.statusMessage}`);
                  reject();
                }
                var data = [];
                res.on('data', (chunk) => {
                  data.push(chunk);
                });
                res.on('end', () => {
                  console.log('   ... Downloaded successfully');
                  fs.writeFileSync(localFileName, Buffer.concat(data));
                  resolve();
                });
              });
              request.on('error', function (e) {
                console.log(e.message);
                reject();
              });
              request.end();
            });
          }
    
          /**
           * END - Recognize Printed & Handwritten Text
           */
          console.log();
          console.log('-------------------------------------------------');
          console.log('End of quickstart.');
    
        },
        function () {
          return new Promise((resolve) => {
            resolve();
          })
        }
      ], (err) => {
        throw (err);
      });
    }
    
    computerVision();
    
  4. Fügen Sie Ihren Schlüssel und Endpunkt an der angegeben Stelle in den oben gezeigten Code ein. Der Maschinelles Sehen-Endpunkt hat das Format https://<your_computer_vision_resource_name>.cognitiveservices.azure.com/.

    Wichtig

    Denken Sie daran, den Schlüssel aus Ihrem Code zu entfernen, wenn Sie fertig sind, und ihn niemals zu veröffentlichen. Verwenden Sie für die Produktion eine sichere Art der Speicherung und des Zugriffs auf Ihre Anmeldeinformationen wieAzure Key Vault. Weitere Informationen finden Sie im Cognitive Services-Artikel zur Sicherheit.

  5. Lesen Sie optional die Informationen zum Angeben der Modellversion. Wenn Sie etwa das neueste allgemein verfügbare Modell explizit angeben möchten, bearbeiten Sie die Anweisung read wie gezeigt. Wenn Sie den Parameter überspringen oder "latest" verwenden, wird automatisch das neueste allgemein verfügbare Modell verwendet.

      let result = await client.read(url,{modelVersion:"2022-04-30"});
    
  6. Führen Sie die Anwendung mit dem Befehl node für die Schnellstartdatei aus.

    node index.js
    

Ausgabe

-------------------------------------------------
READ PRINTED, HANDWRITTEN TEXT AND PDF

Read printed text from URL... printed_text.jpg
Recognized text:
Nutrition Facts Amount Per Serving
Serving size: 1 bar (40g)
Serving Per Package: 4
Total Fat 13g
Saturated Fat 1.5g
Amount Per Serving
Trans Fat 0g
Calories 190
Cholesterol 0mg
ories from Fat 110
Sodium 20mg
nt Daily Values are based on Vitamin A 50%
calorie diet.

-------------------------------------------------
End of quickstart.

Bereinigen von Ressourcen

Wenn Sie ein Cognitive Services-Abonnement bereinigen und entfernen möchten, können Sie die Ressource oder die Ressourcengruppe löschen. Wenn Sie die Ressourcengruppe löschen, werden auch alle anderen Ressourcen gelöscht, die ihr zugeordnet sind.

Nächste Schritte

In dieser Schnellstartanleitung haben Sie erfahren, wie Sie die OCR-Clientbibliothek installieren und die Lese-API verwenden. Informieren Sie sich als Nächstes ausführlicher über die Funktionen der Lese-API.

Verwenden Sie die optische Zeichen Erkennungs-REST-API, um gedruckten und handschriftlichen Text zu lesen.

Hinweis

In dieser Schnellstartanleitung wird die REST-API mithilfe von cURL-Befehlen aufgerufen. Die REST-API kann aber auch mit einer Programmiersprache aufgerufen werden. Auf GitHub stehen Beispiele für C#, Python, Java und JavaScript zur Verfügung.

Voraussetzungen

  • Azure-Abonnement: Kostenloses Azure-Konto
  • Sobald Sie über Ihr Azure-Abonnement verfügen, können Sie im Azure-Portal eine Ressource für maschinelles Sehen erstellen , um Ihren Schlüssel und Endpunkt zu erhalten. Klicken Sie nach Abschluss der Bereitstellung auf Zu Ressource wechseln.
    • Sie benötigen den Schlüssel und Endpunkt der von Ihnen erstellten Ressource, um eine Verbindung Ihrer Anwendung mit dem Dienst für maschinelles Sehen herzustellen. Der Schlüssel und der Endpunkt werden weiter unten in der Schnellstartanleitung in den Code eingefügt.
    • Sie können den kostenlosen Tarif (F0) verwenden, um den Dienst zu testen, und später für die Produktion auf einen kostenpflichtigen Tarif upgraden.
  • cURL muss installiert sein.

Lesen von gedrucktem und handschriftlichem Text

Der OCR-Dienst kann sichtbaren Text in einem Bild oder Dokument extrahieren und in einen Zeichendatenstrom konvertieren. Weitere Informationen zur Textextraktion finden Sie in der Übersicht Optische Zeichenerkennung (OCR).

Aufrufen der Lese-API

Führen Sie zum Erstellen und Ausführen des Beispiels die folgenden Schritte aus:

  1. Kopieren Sie den folgenden Befehl, und fügen Sie ihn in einen Text-Editor ein.
  2. Nehmen Sie die folgenden Änderungen im Befehl vor, falls dies erforderlich ist:
    1. Ersetzen Sie den Wert <subscriptionKey> durch Ihren Schlüssel.
    2. Ersetzen Sie den ersten Teil der Anforderungs-URL (westcentralus) durch den Text in Ihrer eigenen Endpunkt-URL.

      Hinweis

      Neue Ressourcen, die nach dem 1. Juli 2019 erstellt wurden, verwenden benutzerdefinierte Unterdomänennamen. Weitere Informationen und eine vollständige Liste mit regionalen Endpunkten finden Sie unter Benutzerdefinierte Unterdomänennamen für Cognitive Services.

    3. Ändern Sie optional die Bild-URL im Anforderungstext (https://upload.wikimedia.org/wikipedia/commons/thumb/a/af/Atomist_quote_from_Democritus.png/338px-Atomist_quote_from_Democritus.png\) in die URL eines anderen Bilds, das analysiert werden soll.
  3. Öffnen Sie ein Eingabeaufforderungsfenster.
  4. Fügen Sie den Befehl aus dem Text-Editor in das Eingabeaufforderungsfenster ein, und führen Sie den Befehl aus.
curl -v -X POST "https://westcentralus.api.cognitive.microsoft.com/vision/v3.2/read/analyze" -H "Content-Type: application/json" -H "Ocp-Apim-Subscription-Key: <subscription key>" --data-ascii "{\"url\":\"https://upload.wikimedia.org/wikipedia/commons/thumb/a/af/Atomist_quote_from_Democritus.png/338px-Atomist_quote_from_Democritus.png\"}"

Die Antwort enthält einen Header vom Typ Operation-Location, bei dessen Wert es sich um eine eindeutige URL handelt. Diese URL wird verwendet, um die Ergebnisse des Lesevorgangs abzufragen. Die URL ist 48 Stunden lang gültig.

Geben Sie optional die Modellversion an.

Lesen Sie optional die Informationen zum Angeben der Modellversion. Wenn Sie etwa das neueste allgemein verfügbare Modell explizit angeben möchten, verwenden Sie model-version=2022-04-30 als Parameter. Wenn Sie den Parameter überspringen oder model-version=latest verwenden, wird automatisch das neueste allgemein verfügbare Modell verwendet.

curl -v -X POST "https://westcentralus.api.cognitive.microsoft.com/vision/v3.2/read/analyze?model-version=2022-04-30" -H "Content-Type: application/json" -H "Ocp-Apim-Subscription-Key: <subscription key>" --data-ascii "{\"url\":\"https://upload.wikimedia.org/wikipedia/commons/thumb/a/af/Atomist_quote_from_Democritus.png/338px-Atomist_quote_from_Democritus.png\"}"

Abrufen der Leseergebnisse

  1. Kopieren Sie den folgenden Befehl in Ihren Text-Editor.
  2. Ersetzen Sie die URL durch den Wert Operation-Location, den Sie im vorherigen Schritt kopiert haben.
  3. Nehmen Sie die folgenden Änderungen im Befehl vor, falls dies erforderlich ist:
    1. Ersetzen Sie den <subscriptionKey>-Wert durch Ihren Abonnementschlüssel.
  4. Öffnen Sie ein Eingabeaufforderungsfenster.
  5. Fügen Sie den Befehl aus dem Text-Editor in das Eingabeaufforderungsfenster ein, und führen Sie den Befehl aus.
curl -v -X GET "https://westcentralus.api.cognitive.microsoft.com/vision/v3.2/read/analyzeResults/{operationId}" -H "Ocp-Apim-Subscription-Key: {subscription key}" --data-ascii "{body}" 

Untersuchen der Antwort

Eine erfolgreiche Antwort wird im JSON-Format zurückgegeben. Die Beispielanwendung analysiert eine Antwort und zeigt diese bei erfolgreicher Ausführung im Eingabeaufforderungsfenster an. Dies wird im folgenden Beispiel veranschaulicht:

{
  "status": "succeeded",
  "createdDateTime": "2021-04-08T21:56:17.6819115+00:00",
  "lastUpdatedDateTime": "2021-04-08T21:56:18.4161316+00:00",
  "analyzeResult": {
    "version": "3.2",
    "readResults": [
      {
        "page": 1,
        "angle": 0,
        "width": 338,
        "height": 479,
        "unit": "pixel",
        "lines": [
          {
            "boundingBox": [
              25,
              14,
              318,
              14,
              318,
              59,
              25,
              59
            ],
            "text": "NOTHING",
            "appearance": {
              "style": {
                "name": "other",
                "confidence": 0.971
              }
            },
            "words": [
              {
                "boundingBox": [
                  27,
                  15,
                  294,
                  15,
                  294,
                  60,
                  27,
                  60
                ],
                "text": "NOTHING",
                "confidence": 0.994
              }
            ]
          }
        ]
      }
    ]
  }
}

Nächste Schritte

In dieser Schnellstartanleitung haben Sie gelernt, wie Sie die Read-REST-API aufrufen. Informieren Sie sich als Nächstes ausführlicher über die Funktionen der Lese-API.

Voraussetzungen

  • Melden Sie sich mit Ihrem Azure-Abonnement und der Cognitive Services-Ressource bei Vision Studio an. Wenn Sie Hilfe bei diesem Schritt benötigen, lesen Sie den Abschnitt Erste Schritte in der Übersicht.

Lesen von gedrucktem und handschriftlichem Text

  1. Wählen Sie die Registerkarte Text extrahieren und den Bereich Extrahieren von Text aus Bildern aus.
  2. Um die Demoumgebung auszuprobieren, müssen Sie eine Ressource auswählen und bestätigen. Dadurch wird eine Nutzung gemäß Ihres Tarifs verursacht.
  3. Wählen Sie ein Bild aus dem verfügbaren Satz aus, oder laden Sie ein eigenes Bild hoch.
  4. Nachdem Sie Ihr Bild ausgewählt haben, wird der extrahierte Text im Ausgabefenster angezeigt. Sie können auch die Registerkarte JSON auswählen, um die JSON-Ausgabe anzuzeigen, die vom API-Aufruf zurückgegeben wird.
  5. Unterhalb der Demoumgebung finden Sie die nächsten Schritte, um mit der Verwendung dieser Funktion in Ihrer eigenen Anwendung zu beginnen.

Nächste Schritte

In diesem Schnellstart haben Sie Vision Studio verwendet, um auf die Lese-API zuzugreifen. Informieren Sie sich als Nächstes ausführlicher über die Funktionen der Lese-API.