Erkunden der Optionen für das Lesen von Text in Azure KI Vision

Abgeschlossen

Azure KI bietet zwei verschiedene Funktionen, die Text aus Dokumenten und Bildern lesen, eine im Azure KI Vision-Dienst, die andere in Azure KI Dokument Intelligenz. Es gibt Überschneidungen bei den Leistungen der einzelnen Dienste, aber jeder Dienst ist für Ergebnisse optimiert, die von den Eingaben abhängig sind.

  • Bildanalyse Optische Zeichenerkennung (OCR):
    • Verwenden Sie diese Funktion für allgemeine, unstrukturierte Dokumente mit geringerer Textmenge oder Bildern, die Text enthalten.
    • Die Ergebnisse werden sofort (synchron) von einem einzigen API-Aufruf zurückgegeben.
    • Bietet Funktionen für die Bildanalyse nach der Textextraktion, einschließlich der Objekterkennung, der Beschreibung oder Kategorisierung eines Bildes, der Erstellung von Miniaturansichten dank intelligentem Zuschneiden und mehr.
    • Beispiele sind: Straßenschilder, handschriftliche Notizen und Ladenschilder.
  • Dokumentintelligenz:
    • Verwenden Sie diesen Dienst, um kleine bis große Mengen von Text aus Bildern und PDF-Dokumenten zu lesen.
    • Dieser Dienst verwendet Kontext und Struktur des Dokuments, um die Genauigkeit zu verbessern.
    • Der erste Funktionsaufruf gibt eine asynchrone Vorgangs-ID zurück, die in einem nachfolgenden Aufruf zum Abrufen der Ergebnisse verwendet werden muss.
    • Beispiele sind: Belege, Artikel und Rechnungen.

Sie können über die REST-API oder eine Clientbibliothek auf die beiden Technologien zugreifen. In diesem Modul konzentrieren wir uns auf die OCR-Funktion in der Bildanalyse. Wenn Sie mehr über Dokument Intelligenz erfahren möchten, sollten Sie zur Einführung dieses Modul lesen.