OCR für Bilder (Version 4.0)

Hinweis

Verwenden Sie zum Extrahieren von Text aus PDF-, Office- und HTML-Dokumenten sowie aus Dokumentbildern das Lese-OCR-Modell von Dokument Intelligenz, das für digitale und gescannte Dokumente mit viel Text optimiert ist und eine asynchrone API aufweist, mit der Sie Ihre Szenarien zur intelligenten Dokumentverarbeitung problemlos unterstützen können.

OCR begann traditionell als eine auf maschinellem Lernen basierende Technik zum Extrahieren von Text aus In-the-Wild- und nicht aus Dokumenten stammenden Bildern wie Produktetiketten, benutzergenerierten Bildern, Screenshots, Straßenschildern und Postern. Für mehrere Szenarien, z. B. für einzelne Bilder, die nicht textlastig sind, benötigen Sie eine schnelle, synchrone API oder einen entsprechenden Dienst. Dadurch kann OCR in nahezu echtzeitfähige Benutzeroberflächen eingebettet werden, um das Verständnis von Inhalten und die Nachverfolgung von Benutzeraktionen mit schnellen Umlaufzeiten zu erweitern.

Was ist Read OCR für Version 4.0 des maschinellen Sehens?

Die neue Vorschauversion der Bildanalyse 4.0-REST-API für maschinelles Sehen bietet die Möglichkeit, gedruckten oder handschriftlichen Text aus Bildern in einer einheitlichen, leistungsoptimierteren synchronen API zu extrahieren, die es einfach macht, alle Bilderkenntnisse einschließlich OCR-Ergebnissen in einem einzelnen API-Vorgang abzurufen. Die Read OCR-Engine baut auf mehreren Deep Learning-Modellen auf, die von universellen skriptbasierten Modellen unterstützt werden, um globale Sprachunterstützung zu bieten.

Tipp

Sie können das OCR-Feature über den Azure OpenAI-Dienst verwenden. Mit dem Modell GPT-4 Turbo mit Vision können Sie mit einem KI-Assistenten chatten, der die von Ihnen freigegebenen Bilder analysieren kann. Die Option „Vision-Erweiterung“ verwendet die Bildanalyse, um dem KI-Assistenten zusätzliche Details (lesbarer Text und Objektpositionen) zum Bild zu liefern. Weitere Informationen finden Sie im Schnellstart zu GPT-4 Turbo mit Vision.

Beispiel für die Textextraktion

Die folgende JSON-Antwort veranschaulicht, was von der Bildanalyse 4.0-API beim Extrahieren von Text aus dem angegebenen Bild zurückgegeben wird.

Photo of a sticky note with writing on it.

{
    "modelVersion": "2024-02-01",
    "metadata":
    {
        "width": 1000,
        "height": 945
    },
    "readResult":
    {
        "blocks":
        [
            {
                "lines":
                [
                    {
                        "text": "You must be the change you",
                        "boundingPolygon":
                        [
                            {"x":251,"y":265},
                            {"x":673,"y":260},
                            {"x":674,"y":308},
                            {"x":252,"y":318}
                        ],
                        "words":
                        [
                            {"text":"You","boundingPolygon":[{"x":252,"y":267},{"x":307,"y":265},{"x":307,"y":318},{"x":253,"y":318}],"confidence":0.996},
                            {"text":"must","boundingPolygon":[{"x":318,"y":264},{"x":386,"y":263},{"x":387,"y":316},{"x":319,"y":318}],"confidence":0.99},
                            {"text":"be","boundingPolygon":[{"x":396,"y":262},{"x":432,"y":262},{"x":432,"y":315},{"x":396,"y":316}],"confidence":0.891},
                            {"text":"the","boundingPolygon":[{"x":441,"y":262},{"x":503,"y":261},{"x":503,"y":312},{"x":442,"y":314}],"confidence":0.994},
                            {"text":"change","boundingPolygon":[{"x":513,"y":261},{"x":613,"y":262},{"x":613,"y":306},{"x":513,"y":311}],"confidence":0.99},
                            {"text":"you","boundingPolygon":[{"x":623,"y":262},{"x":673,"y":263},{"x":673,"y":302},{"x":622,"y":305}],"confidence":0.994}
                        ]
                    },
                    {
                        "text": "wish to see in the world !",
                        "boundingPolygon":
                        [
                            {"x":325,"y":338},
                            {"x":695,"y":328},
                            {"x":696,"y":370},
                            {"x":325,"y":381}
                        ],
                        "words":
                        [
                            {"text":"wish","boundingPolygon":[{"x":325,"y":339},{"x":390,"y":337},{"x":391,"y":380},{"x":326,"y":381}],"confidence":0.992},
                            {"text":"to","boundingPolygon":[{"x":406,"y":337},{"x":443,"y":335},{"x":443,"y":379},{"x":407,"y":380}],"confidence":0.995},
                            {"text":"see","boundingPolygon":[{"x":451,"y":335},{"x":494,"y":334},{"x":494,"y":377},{"x":452,"y":379}],"confidence":0.996},
                            {"text":"in","boundingPolygon":[{"x":502,"y":333},{"x":533,"y":332},{"x":534,"y":376},{"x":503,"y":377}],"confidence":0.996},
                            {"text":"the","boundingPolygon":[{"x":542,"y":332},{"x":590,"y":331},{"x":590,"y":375},{"x":542,"y":376}],"confidence":0.995},
                            {"text":"world","boundingPolygon":[{"x":599,"y":331},{"x":664,"y":329},{"x":664,"y":372},{"x":599,"y":374}],"confidence":0.995},
                            {"text":"!","boundingPolygon":[{"x":672,"y":329},{"x":694,"y":328},{"x":694,"y":371},{"x":672,"y":372}],"confidence":0.957}
                        ]
                    },
                    {
                        "text": "Everything has its beauty , but",
                        "boundingPolygon":
                        [
                            {"x":254,"y":439},
                            {"x":644,"y":433},
                            {"x":645,"y":484},
                            {"x":255,"y":488}
                        ],
                        "words":
                        [
                            {"text":"Everything","boundingPolygon":[{"x":254,"y":442},{"x":379,"y":440},{"x":380,"y":486},{"x":257,"y":488}],"confidence":0.97},
                            {"text":"has","boundingPolygon":[{"x":388,"y":440},{"x":435,"y":438},{"x":436,"y":485},{"x":389,"y":486}],"confidence":0.965},
                            {"text":"its","boundingPolygon":[{"x":445,"y":438},{"x":485,"y":437},{"x":486,"y":485},{"x":446,"y":485}],"confidence":0.99},
                            {"text":"beauty","boundingPolygon":[{"x":495,"y":437},{"x":567,"y":435},{"x":568,"y":485},{"x":496,"y":485}],"confidence":0.685},
                            {"text":",","boundingPolygon":[{"x":577,"y":435},{"x":583,"y":435},{"x":583,"y":485},{"x":577,"y":485}],"confidence":0.939},
                            {"text":"but","boundingPolygon":[{"x":589,"y":435},{"x":644,"y":434},{"x":644,"y":485},{"x":589,"y":485}],"confidence":0.628}
                        ]
                    },
                    {
                        "text": "not everyone sees it !",
                        "boundingPolygon":
                        [
                            {"x":363,"y":508},
                            {"x":658,"y":493},
                            {"x":659,"y":539},
                            {"x":364,"y":552}
                        ],
                        "words":
                        [
                            {"text":"not","boundingPolygon":[{"x":363,"y":510},{"x":412,"y":508},{"x":413,"y":548},{"x":365,"y":552}],"confidence":0.989},
                            {"text":"everyone","boundingPolygon":[{"x":420,"y":507},{"x":521,"y":501},{"x":522,"y":542},{"x":421,"y":548}],"confidence":0.924},
                            {"text":"sees","boundingPolygon":[{"x":536,"y":501},{"x":588,"y":498},{"x":589,"y":540},{"x":537,"y":542}],"confidence":0.987},
                            {"text":"it","boundingPolygon":[{"x":597,"y":497},{"x":627,"y":495},{"x":628,"y":540},{"x":598,"y":540}],"confidence":0.995},
                            {"text":"!","boundingPolygon":[{"x":635,"y":495},{"x":656,"y":494},{"x":657,"y":540},{"x":636,"y":540}],"confidence":0.952}
                        ]
                    }
                ]
            }
        ]
    }
}

Verwenden der API

Die Funktion zur Textextraktion ist Teil der Bildanalyse-API. Beziehen Sie Read in den Abfrageparameter features ein. Nachdem Sie die vollständige JSON-Antwort erhalten haben, analysieren Sie die Zeichenfolge auf die Inhalte im Abschnitt "readResult".

Nächste Schritte

Folgen Sie dem Schnellstart zur Bildanalyse um mit der Bildanalyse 4.0-API Text aus einem Bild zu extrahieren.