De Lees-API van Azure AI Vision v3.2 aanroepen
In deze handleiding ziet u hoe u de lees-API voor v3.2 aanroept om tekst uit afbeeldingen te extraheren. U leert de verschillende manieren waarop u het gedrag van deze API kunt configureren om aan uw behoeften te voldoen.
In de volgende stappen wordt ervan uitgegaan dat u al een Computer Vision-resource hebt gemaakt en een sleutel- en eindpunt-URL hebt verkregen. Als u dat nog niet hebt gedaan, raadpleegt u de quickstart om aan de slag te gaan.
OCR-edities (Lezen)
Belangrijk
Selecteer de Read-editie die het beste past bij uw vereisten.
Invoer | Voorbeelden | Leeseditie | Voordeel |
---|---|---|---|
Afbeeldingen: Algemeen, in-the-wild afbeeldingen | labels, straatborden en posters | OCR voor installatiekopieën (versie 4.0) | Geoptimaliseerd voor algemene, niet-documentafbeeldingen met een synchrone API met verbeterde prestaties, waardoor ocr eenvoudiger kan worden ingesloten in uw gebruikerservaringsscenario's. |
Documenten: Digitaal en gescand, inclusief afbeeldingen | boeken, artikelen en rapporten | Document Intelligence-leesmodel | Geoptimaliseerd voor tekstzware gescande en digitale documenten met een asynchrone API om intelligente documentverwerking op schaal te automatiseren. |
Algemene beschikbaarheid van Azure AI Vision v3.2
Bent u op zoek naar de meest recente algemene beschikbaarheid van Azure AI Vision v3.2? Alle toekomstige verbeteringen voor lees-OCR maken deel uit van de twee services die eerder zijn vermeld. Er zijn geen verdere updates voor Azure AI Visie v3.2. Zie Voor meer informatie de Lees-API en quickstart van Azure AI Vision 3.2 aanroepen: Lees-API voor Azure AI Vision v3.2.
Bepalen hoe de gegevens moeten worden verwerkt (optioneel)
Het OCR-model opgeven
De service maakt standaard gebruik van het meest recente algemeen beschikbare model (GA) om tekst te extraheren. Vanaf Read v3.2 kunt u met een model-version
parameter kiezen tussen de GA- en preview-modellen voor een bepaalde API-versie. Het model dat u opgeeft, wordt gebruikt om tekst te extraheren met de leesbewerking.
Wanneer u de leesbewerking gebruikt, gebruikt u de volgende waarden voor de optionele model-version
parameter.
Weergegeven als | Model gebruikt |
---|---|
Niet opgegeven | Meest recente GA-model |
Laatste | Meest recente GA-model |
2022-04-30 | Nieuwste GA-model. 164 talen voor afdruktekst en 9 talen voor handgeschreven tekst, samen met verschillende verbeteringen op het vlak van kwaliteit en prestaties |
2022-01-30 | Hiermee voegt u tekstondersteuning voor Hindi, Arabisch en gerelateerde talen toe. Voor handgeschreven tekst voegt u ondersteuning toe voor Japans en Koreaans. |
2021-09-30 | Hiermee voegt u ondersteuning voor afdruktekst toe voor Russische en andere Cyrillische talen. Voor handgeschreven tekst voegt u ondersteuning toe voor vereenvoudigd Chinees, Frans, Duits, Italiaans, Portugees en Spaans. |
2021-04-12 | GA-model 2021 |
Invoertaal
De service extraheert standaard alle tekst uit uw afbeeldingen of documenten, inclusief gemengde talen. De leesbewerking heeft een optionele aanvraagparameter voor de taal. Geef alleen een taalcode op als u wilt afdwingen dat het document wordt verwerkt als die specifieke taal. Anders kan de service onvolledige en onjuiste tekst retourneren.
Uitvoer van natuurlijke leesvolgorde (alleen Latijnse talen)
De service voert standaard de tekstregels in volgorde van links naar rechts uit. U kunt eventueel met de readingOrder
aanvraagparameter een gebruiksvriendelijkere uitvoer van een leesvolgorde gebruiken natural
, zoals wordt weergegeven in het volgende voorbeeld. Deze functie wordt alleen ondersteund voor Latijnse talen.
Pagina's of paginabereiken selecteren voor tekstextractie
De service extraheert standaard tekst uit alle pagina's in de documenten. U kunt eventueel de pages
aanvraagparameter gebruiken om paginanummers of paginabereiken op te geven om alleen tekst uit die pagina's te extraheren. In het volgende voorbeeld ziet u een document met 10 pagina's, met tekst die voor beide gevallen is geëxtraheerd: Alle pagina's (1-10) en Geselecteerde pagina's (3-6).
Gegevens verzenden naar de service
U verzendt een lokale installatiekopieën of een externe installatiekopieën naar de Read-API. Voor lokaal plaatst u de binaire afbeeldingsgegevens in de hoofdtekst van de HTTP-aanvraag. Voor extern geeft u de URL van de afbeelding op door de hoofdtekst van de aanvraag op te maken, zoals in het volgende voorbeeld.
{"url":"http://example.com/images/test.jpg"}
De read-API-aanroep maakt een afbeelding of PDF-document als invoer en extraheert tekst asynchroon.
https://{endpoint}/vision/v3.2/read/analyze[?language][&pages][&readingOrder]
De aanroep wordt geretourneerd met een veld voor de antwoordheader met de naam Operation-Location
. De Operation-Location
waarde is een URL die de bewerkings-id bevat die in de volgende stap moet worden gebruikt.
Antwoordheader | Voorbeeldwaarde |
---|---|
Operation-Location | https://cognitiveservice/vision/v3.2/read/analyzeResults/d3d3d3d3-eeee-ffff-aaaa-b4b4b4b4b4b4 |
Notitie
Facturering
De pagina met prijzen voor Azure AI Vision bevat de prijscategorie voor leesbewerkingen. Elke geanalyseerde afbeelding of pagina is één transactie. Als u de bewerking aanroept met een PDF- of TIFF-document met 100 pagina's, telt de leesbewerking deze als 100 transacties en wordt u gefactureerd voor 100 transacties. Als u 50 aanroepen naar de bewerking hebt gedaan en elke aanroep een document met 100 pagina's heeft ingediend, wordt u gefactureerd voor 50 X 100 = 5000 transacties.
Resultaten ophalen van de service
De tweede stap is het aanroepen van de bewerking Leesresultaat ophalen. Deze bewerking gebruikt als invoer de bewerkings-id die is gemaakt door de leesbewerking.
https://{endpoint}/vision/v3.2/read/analyzeResults/{operationId}
Het retourneert een JSON-antwoord dat een statusveld bevat met de volgende mogelijke waarden.
Weergegeven als | Betekenis |
---|---|
notStarted |
De bewerking is niet gestart. |
running |
De bewerking wordt verwerkt. |
failed |
De bewerking is mislukt. |
succeeded |
De bewerking is voltooid. |
U roept deze bewerking iteratief aan totdat deze wordt geretourneerd met de geslaagde waarde. Gebruik een interval van 1 tot 2 seconden om te voorkomen dat de aanvragen per seconde (RPS) worden overschreden.
Notitie
De gratis laag beperkt de aanvraagsnelheid tot 20 aanroepen per minuut. De betaalde laag staat 30 RPS toe die op aanvraag kunnen worden verhoogd. Noteer uw Azure-resourceidentfier en -regio en open een ondersteuning voor Azure ticket of neem contact op met uw accountteam om een hoger RPS-tarief aan te vragen.
Wanneer het statusveld de succeeded
waarde heeft, bevat het JSON-antwoord de geëxtraheerde tekstinhoud uit uw afbeelding of document. Het JSON-antwoord onderhoudt de oorspronkelijke regelgroepen van herkende woorden. Het bevat de geëxtraheerde tekstregels en de bijbehorende begrenzingsvakcoördinaten. Elke tekstregel bevat alle geëxtraheerde woorden met hun coördinaten en betrouwbaarheidsscores.
Notitie
De gegevens die naar de leesbewerking worden verzonden, worden tijdelijk versleuteld en in rust opgeslagen gedurende een korte periode en vervolgens verwijderd. Hierdoor kunnen uw toepassingen de geëxtraheerde tekst ophalen als onderdeel van het serviceantwoord.
Voorbeeld van JSON-uitvoer
Zie het volgende voorbeeld van een geslaagd JSON-antwoord:
{
"status": "succeeded",
"createdDateTime": "2021-02-04T06:32:08.2752706+00:00",
"lastUpdatedDateTime": "2021-02-04T06:32:08.7706172+00:00",
"analyzeResult": {
"version": "3.2",
"readResults": [
{
"page": 1,
"angle": 2.1243,
"width": 502,
"height": 252,
"unit": "pixel",
"lines": [
{
"boundingBox": [
58,
42,
314,
59,
311,
123,
56,
121
],
"text": "Tabs vs",
"appearance": {
"style": {
"name": "handwriting",
"confidence": 0.96
}
},
"words": [
{
"boundingBox": [
68,
44,
225,
59,
224,
122,
66,
123
],
"text": "Tabs",
"confidence": 0.933
},
{
"boundingBox": [
241,
61,
314,
72,
314,
123,
239,
122
],
"text": "vs",
"confidence": 0.977
}
]
}
]
}
]
}
}
Handgeschreven classificatie voor tekstregels (alleen Latijnse talen)
Het antwoord bevat een classificatie van of elke regel tekst in handgeschreven stijl is of niet, samen met een betrouwbaarheidsscore. Deze functie is alleen beschikbaar voor Latijnse talen. In het volgende voorbeeld ziet u de handgeschreven classificatie voor de tekst in de afbeelding.