De Lees-API van Azure AI Vision v3.2 aanroepen

Artikel
10/17/2024

In deze handleiding ziet u hoe u de lees-API voor v3.2 aanroept om tekst uit afbeeldingen te extraheren. U leert de verschillende manieren waarop u het gedrag van deze API kunt configureren om aan uw behoeften te voldoen.

In de volgende stappen wordt ervan uitgegaan dat u al een Computer Vision-resource hebt gemaakt en een sleutel- en eindpunt-URL hebt verkregen. Als u dat nog niet hebt gedaan, raadpleegt u de quickstart om aan de slag te gaan.

OCR-edities (Lezen)

Belangrijk

Selecteer de Read-editie die het beste past bij uw vereisten.

Invoer	Voorbeelden	Leeseditie	Voordeel
Afbeeldingen: Algemeen, in-the-wild afbeeldingen	labels, straatborden en posters	OCR voor installatiekopieën (versie 4.0)	Geoptimaliseerd voor algemene, niet-documentafbeeldingen met een synchrone API met verbeterde prestaties, waardoor ocr eenvoudiger kan worden ingesloten in uw gebruikerservaringsscenario's.
Documenten: Digitaal en gescand, inclusief afbeeldingen	boeken, artikelen en rapporten	Document Intelligence-leesmodel	Geoptimaliseerd voor tekstzware gescande en digitale documenten met een asynchrone API om intelligente documentverwerking op schaal te automatiseren.

Algemene beschikbaarheid van Azure AI Vision v3.2

Bent u op zoek naar de meest recente algemene beschikbaarheid van Azure AI Vision v3.2? Alle toekomstige verbeteringen voor lees-OCR maken deel uit van de twee services die eerder zijn vermeld. Er zijn geen verdere updates voor Azure AI Visie v3.2. Zie Voor meer informatie de Lees-API en quickstart van Azure AI Vision 3.2 aanroepen: Lees-API voor Azure AI Vision v3.2.

Bepalen hoe de gegevens moeten worden verwerkt (optioneel)

Het OCR-model opgeven

De service maakt standaard gebruik van het meest recente algemeen beschikbare model (GA) om tekst te extraheren. Vanaf Read v3.2 kunt u met een model-version parameter kiezen tussen de GA- en preview-modellen voor een bepaalde API-versie. Het model dat u opgeeft, wordt gebruikt om tekst te extraheren met de leesbewerking.

Wanneer u de leesbewerking gebruikt, gebruikt u de volgende waarden voor de optionele model-version parameter.

Weergegeven als	Model gebruikt
Niet opgegeven	Meest recente GA-model
Laatste	Meest recente GA-model
2022-04-30	Nieuwste GA-model. 164 talen voor afdruktekst en 9 talen voor handgeschreven tekst, samen met verschillende verbeteringen op het vlak van kwaliteit en prestaties
2022-01-30	Hiermee voegt u tekstondersteuning voor Hindi, Arabisch en gerelateerde talen toe. Voor handgeschreven tekst voegt u ondersteuning toe voor Japans en Koreaans.
2021-09-30	Hiermee voegt u ondersteuning voor afdruktekst toe voor Russische en andere Cyrillische talen. Voor handgeschreven tekst voegt u ondersteuning toe voor vereenvoudigd Chinees, Frans, Duits, Italiaans, Portugees en Spaans.
2021-04-12	GA-model 2021

Invoertaal

De service extraheert standaard alle tekst uit uw afbeeldingen of documenten, inclusief gemengde talen. De leesbewerking heeft een optionele aanvraagparameter voor de taal. Geef alleen een taalcode op als u wilt afdwingen dat het document wordt verwerkt als die specifieke taal. Anders kan de service onvolledige en onjuiste tekst retourneren.

Uitvoer van natuurlijke leesvolgorde (alleen Latijnse talen)

De service voert standaard de tekstregels in volgorde van links naar rechts uit. U kunt eventueel met de readingOrder aanvraagparameter een gebruiksvriendelijkere uitvoer van een leesvolgorde gebruiken natural , zoals wordt weergegeven in het volgende voorbeeld. Deze functie wordt alleen ondersteund voor Latijnse talen.

Schermopname van het voorbeeld van ocr-leesvolgorde.

Pagina's of paginabereiken selecteren voor tekstextractie

De service extraheert standaard tekst uit alle pagina's in de documenten. U kunt eventueel de pages aanvraagparameter gebruiken om paginanummers of paginabereiken op te geven om alleen tekst uit die pagina's te extraheren. In het volgende voorbeeld ziet u een document met 10 pagina's, met tekst die voor beide gevallen is geëxtraheerd: Alle pagina's (1-10) en Geselecteerde pagina's (3-6).

Schermopname van uitvoer van alle pagina's en van geselecteerde pagina's.

Gegevens verzenden naar de service

U verzendt een lokale installatiekopieën of een externe installatiekopieën naar de Read-API. Voor lokaal plaatst u de binaire afbeeldingsgegevens in de hoofdtekst van de HTTP-aanvraag. Voor extern geeft u de URL van de afbeelding op door de hoofdtekst van de aanvraag op te maken, zoals in het volgende voorbeeld.

{"url":"http://example.com/images/test.jpg"}

De read-API-aanroep maakt een afbeelding of PDF-document als invoer en extraheert tekst asynchroon.

https://{endpoint}/vision/v3.2/read/analyze[?language][&pages][&readingOrder]

De aanroep wordt geretourneerd met een veld voor de antwoordheader met de naam Operation-Location. De Operation-Location waarde is een URL die de bewerkings-id bevat die in de volgende stap moet worden gebruikt.

Antwoordheader	Voorbeeldwaarde
Operation-Location	`https://cognitiveservice/vision/v3.2/read/analyzeResults/d3d3d3d3-eeee-ffff-aaaa-b4b4b4b4b4b4`

Notitie

Facturering

De pagina met prijzen voor Azure AI Vision bevat de prijscategorie voor leesbewerkingen. Elke geanalyseerde afbeelding of pagina is één transactie. Als u de bewerking aanroept met een PDF- of TIFF-document met 100 pagina's, telt de leesbewerking deze als 100 transacties en wordt u gefactureerd voor 100 transacties. Als u 50 aanroepen naar de bewerking hebt gedaan en elke aanroep een document met 100 pagina's heeft ingediend, wordt u gefactureerd voor 50 X 100 = 5000 transacties.

Resultaten ophalen van de service

De tweede stap is het aanroepen van de bewerking Leesresultaat ophalen. Deze bewerking gebruikt als invoer de bewerkings-id die is gemaakt door de leesbewerking.

https://{endpoint}/vision/v3.2/read/analyzeResults/{operationId}

Het retourneert een JSON-antwoord dat een statusveld bevat met de volgende mogelijke waarden.

Weergegeven als	Betekenis
`notStarted`	De bewerking is niet gestart.
`running`	De bewerking wordt verwerkt.
`failed`	De bewerking is mislukt.
`succeeded`	De bewerking is voltooid.

U roept deze bewerking iteratief aan totdat deze wordt geretourneerd met de geslaagde waarde. Gebruik een interval van 1 tot 2 seconden om te voorkomen dat de aanvragen per seconde (RPS) worden overschreden.

Notitie

De gratis laag beperkt de aanvraagsnelheid tot 20 aanroepen per minuut. De betaalde laag staat 30 RPS toe die op aanvraag kunnen worden verhoogd. Noteer uw Azure-resourceidentfier en -regio en open een ondersteuning voor Azure ticket of neem contact op met uw accountteam om een hoger RPS-tarief aan te vragen.

Wanneer het statusveld de succeeded waarde heeft, bevat het JSON-antwoord de geëxtraheerde tekstinhoud uit uw afbeelding of document. Het JSON-antwoord onderhoudt de oorspronkelijke regelgroepen van herkende woorden. Het bevat de geëxtraheerde tekstregels en de bijbehorende begrenzingsvakcoördinaten. Elke tekstregel bevat alle geëxtraheerde woorden met hun coördinaten en betrouwbaarheidsscores.

Notitie

De gegevens die naar de leesbewerking worden verzonden, worden tijdelijk versleuteld en in rust opgeslagen gedurende een korte periode en vervolgens verwijderd. Hierdoor kunnen uw toepassingen de geëxtraheerde tekst ophalen als onderdeel van het serviceantwoord.

Voorbeeld van JSON-uitvoer

Zie het volgende voorbeeld van een geslaagd JSON-antwoord:

{
  "status": "succeeded",
  "createdDateTime": "2021-02-04T06:32:08.2752706+00:00",
  "lastUpdatedDateTime": "2021-02-04T06:32:08.7706172+00:00",
  "analyzeResult": {
    "version": "3.2",
    "readResults": [
      {
        "page": 1,
        "angle": 2.1243,
        "width": 502,
        "height": 252,
        "unit": "pixel",
        "lines": [
          {
            "boundingBox": [
              58,
              42,
              314,
              59,
              311,
              123,
              56,
              121
            ],
            "text": "Tabs vs",
            "appearance": {
              "style": {
                "name": "handwriting",
                "confidence": 0.96
              }
            },
            "words": [
              {
                "boundingBox": [
                  68,
                  44,
                  225,
                  59,
                  224,
                  122,
                  66,
                  123
                ],
                "text": "Tabs",
                "confidence": 0.933
              },
              {
                "boundingBox": [
                  241,
                  61,
                  314,
                  72,
                  314,
                  123,
                  239,
                  122
                ],
                "text": "vs",
                "confidence": 0.977
              }
            ]
          }
        ]
      }
    ]
  }
}

Handgeschreven classificatie voor tekstregels (alleen Latijnse talen)

Het antwoord bevat een classificatie van of elke regel tekst in handgeschreven stijl is of niet, samen met een betrouwbaarheidsscore. Deze functie is alleen beschikbaar voor Latijnse talen. In het volgende voorbeeld ziet u de handgeschreven classificatie voor de tekst in de afbeelding.

Schermopname van het voorbeeld van ocr-handschriftclassificatie.

Delen via

De Lees-API van Azure AI Vision v3.2 aanroepen

OCR-edities (Lezen)