Bearbeiten

Freigeben über


KI-Anreicherung mit Bild- und Textverarbeitung

Azure App Service
Azure Blob Storage
Azure KI Search
Azure-Funktionen

Lösungsmöglichkeiten

In diesem Artikel ist ein Lösungsvorschlag beschrieben. Ihr Cloudarchitekt kann diesen Leitfaden verwenden, um die Hauptkomponenten einer typischen Implementierung dieser Architektur zu visualisieren. Verwenden Sie diesen Artikel als Ausgangspunkt, um eine gut durchdachte Lösung zu entwerfen, die den spezifischen Anforderungen Ihrer Workload entspricht.

Dieser Artikel stellt eine Lösung vor, die Text- und Bilddokumente mithilfe von Bildverarbeitung, Verarbeitung natürlicher Sprache und benutzerdefinierten Skills ergänzt, um domänenspezifische Daten zu erfassen. Azure Cognitive Search mit KI-Anreicherung kann helfen, relevante Inhalte im großen Stil zu identifizieren und zu erkunden. Diese Lösung verwendet KI-Anreicherung, um aus dem ursprünglichen komplexen, unstrukturierten Dataset der JFK Assassination Records (Akten zu den Aufzeichnungen zum JFK-Attentat) eine Bedeutung zu extrahieren.

Aufbau

Diagramm, das die Azure Cognitive Search-Architektur zur Umwandlung unstrukturierter in strukturierte Daten zeigt.

Laden Sie eine Visio-Datei dieser Architektur herunter.

Datenfluss

Das obige Diagramm veranschaulicht den Prozess der Weiterleitung des unstrukturierten Datasets zu den JFK-Akten durch die Azure Cognitive Search-Skillpipeline, um strukturierte, indizierbare Daten zu erzeugen.

  1. Unstrukturierte Daten in Azure Blob Storage, wie Dokumente und Bilder, werden in Azure Cognitive Search erfasst.
  2. Der Schritt der Dokumententschlüsselung leitet den Indizierungsprozess ein, indem Bilder und Text aus den Daten extrahiert werden, gefolgt von einer inhaltlichen Anreicherung. Die Anreicherungsschritte, die in diesem Prozess erfolgen, hängen von den Daten und der Art der ausgewählten Skills ab.
  3. Integrierte Skills, die auf den APIs für maschinelles Sehen und Sprachdienste basieren, ermöglichen KI-Anreicherungen wie optische Zeichenerkennung (OCR), Bildanalyse, Textübersetzung, Entitätserkennung und Volltextsuche.
  4. Benutzerdefinierte Skills unterstützen Szenarien, die komplexere KI-Modelle oder Dienste erfordern. Beispiele dafür sind Formularerkennung, Azure Machine Learning-Modelle und Azure Functions.
  5. Nach dem Anreicherungsprozess speichert der Indexer die Ausgaben in einem Suchindex, der die angereicherten und indizierten Dokumente enthält. Die Volltextsuche und andere Abfrageformulare können diesen Index verwenden.
  6. Die angereicherten Dokumente können auch in einen Wissensspeicher projiziert werden, den nachgeschaltete Apps wie Knowledge Mining oder Data Science verwenden können.
  7. Abfragen greifen auf die angereicherten Inhalte im Suchindex zu. Der Index unterstützt benutzerdefinierte Analysetools, Fuzzysuchabfragen, Filter und ein Bewertungsprofil zur Abstimmung der Suchrelevanz.
  8. Jede Anwendung, die eine Verbindung zu Blob Storage oder zu Azure Table Storage herstellt, kann auf den Wissensspeicher zugreifen.

Komponenten

Azure Cognitive Search arbeitet mit anderen Azure-Komponenten zusammen, um diese Lösung bereitzustellen.

Azure Cognitive Search indiziert den Inhalt und unterstützt die Benutzerfreundlichkeit in dieser Lösung. Azure Cognitive Search kann vordefinierte kognitive Skills auf die Inhalte anwenden, und der Erweiterungsmechanismus kann benutzerdefinierte Skills für spezifische Anreicherungstransformationen hinzufügen.

Maschinelles Sehen in Azure

Das maschinelle Sehen in Azure verwendet die Texterkennung, um Textinformationen aus Bildern zu extrahieren und zu erkennen. Die Lese-API verwendet die neuesten OCR-Erkennungsmodelle und ist für große, textintensive Dokumente und umfangreiche Bilder optimiert.

Die Legacy-OCR-API ist nicht für große Dokumente optimiert, unterstützt jedoch weitere Sprachen. Die OCR-Ergebnisse können je nach Qualität des Scans und des Bildes variieren. Die aktuelle Lösungsidee verwendet OCR, um Daten im hOCR-Format zu erzeugen.

Azure Cognitive Service for Language

Azure Cognitive Service for Language extrahiert Textinformationen aus unstrukturierten Dokumenten mithilfe von Textanalysefunktionen wie Erkennung benannter Entitäten (NER), Schlüsselbegriffserkennung und Volltextsuche.

Azure Storage

Bei Azure Blob Storage handelt es sich um einen REST-basierten Objektspeicher für Daten, auf den Sie von überall auf der Welt über HTTPS zugreifen können. Sie können Blob Storage verwenden, um Daten öffentlich auf der ganzen Welt zur Verfügung zu stellen oder um Anwendungsdaten privat zu speichern. Blob Storage eignet sich ideal für große Mengen unstrukturierter Daten, z. B. Text oder Grafiken.

Azure Table Storage speichert hochverfügbare, skalierbare, strukturierte oder teilweise strukturierte NoSQL-Daten in der Cloud.

Azure-Funktionen

Azure Functions ist ein serverloser Computedienst, mit dem Sie kleine Teile von ereignisgesteuertem Code ausführen können, ohne eine explizite Infrastruktur bereitstellen oder verwalten zu müssen. In dieser Lösung wird eine Azure Functions-Methode verwendet, um die Liste der CIA-Kryptonyme auf die JFK Assassination Records (Akten zu den Aufzeichnungen zum JFK-Attentat) als benutzerdefinierten Skill anzuwenden.

Azure App Service

Diese Lösungsidee erstellt auch eine eigenständige Web App in Azure App Service, um den Index zu testen, zu demonstrieren, zu durchsuchen und Verbindungen in den angereicherten und indizierten Dokumenten zu erkunden.

Szenariodetails

Große, unstrukturierte Datasets können maschinengeschriebene und handschriftliche Notizen, Fotos und Diagramme sowie andere unstrukturierte Daten enthalten, die von Standardsuchlösungen nicht analysiert werden können. Die JFK Assassination Records enthalten über 34.000 Seiten an Dokumenten über die CIA-Untersuchung des JFK-Attentats von 1963.

Das Beispielprojekt zu den JFK-Akten und die Onlinedemo zeigen einen besonderen Azure Cognitive Search-Anwendungsfall. Diese Lösungsidee ist nicht als Framework oder skalierbare Architektur für alle Szenarien gedacht, sondern soll eine allgemeine Richtlinie bieten und als Beispiel dienen. Das Codeprojekt und die Demo erstellen eine öffentliche Website und einen öffentlich lesbaren Speichercontainer für extrahierte Bilder. Daher sollten Sie diese Lösung nicht für nicht öffentliche Daten verwenden.

Die KI-Anreicherung in Azure Cognitive Search kann durchsuchbaren, indizierbaren Text aus Bildern, Blobs und anderen unstrukturierten Datenquellen wie den JFK-Akten extrahieren und verbessern. Die KI-Anreicherung verwendet vorgefertigte Skills für maschinelles Lernen aus der Cognitive Services-API für maschinelles Sehen und der API für Cognitive Service für Language. Sie können auch benutzerdefinierte Skills erstellen und anfügen, um eine spezielle Verarbeitung für domänenspezifische Daten wie etwa CIA-Kryptonyme hinzuzufügen. Azure Cognitive Search kann diesen Kontext anschließend indizieren und durchsuchen.

Die Azure Cognitive Search-Skills in dieser Lösung fallen in die folgenden Kategorien:

  • Bildverarbeitung. Zu den integrierten Skills zur Textextraktion und Bildanalyse gehören die Erkennung von Objekten und Gesichtern, das Generieren von Tags und Beschriftungen sowie die Identifizierung von Prominenten und Wahrzeichen. Diese Skills erstellen Textdarstellungen von Bildinhalten, sodass sie mit den Abfragefunktionen von Azure Cognitive Search durchsucht werden können. Dokumententschlüsselung ist der Prozess des Extrahierens oder Erstellens von Textinhalt aus Nicht-Text-Quellen.

  • Verarbeitung natürlicher Sprache Integrierte Skills wie die Erkennung von Entitäten, die Spracherkennung und die Schlüsselbegriffserkennung ordnen unstrukturierten Text in durchsuchbaren und filterbaren Feldern einem Index zu.

  • Benutzerdefinierte Skills erweitern Azure Cognitive Search, sodass bestimmte Anreicherungstransformationen auf Inhalte angewandt werden können. Sie geben die Schnittstelle für einen benutzerdefinierten Skill über den Skill für benutzerdefinierte Web-APIs an.

Mögliche Anwendungsfälle

  • Steigern Sie den Wert und den Nutzen von unstrukturierten Text- und Bildinhalten in Such- und Data Science-Apps.
  • Nutzen Sie benutzerdefinierte Skills, um Open-Source-, Drittanbieter- oder Erstanbietercode in Indizierungspipelines zu integrieren.
  • Machen Sie gescannte JPG-, PNG- oder Bitmap-Dokumente durchsuchbar.
  • Erzielen Sie bessere Ergebnisse als bei der Standard-PDF-Textextraktion für PDF-Dateien mit Bildern und Text. Einige gescannte und native PDF-Formate werden in Azure Cognitive Search unter Umständen nicht korrekt analysiert.
  • Erstellen Sie neue Informationen aus grundsätzlich aussagekräftigem Rohinhalt oder Kontext, der in größeren unstrukturierten oder teilweise strukturierten Dokumenten verborgen ist.

Beitragende

Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben.

Hauptautor:

Melden Sie sich bei LinkedIn an, um nicht öffentliche LinkedIn-Profile anzuzeigen.

Nächste Schritte

Erfahren Sie mehr über diese Lösung:

Lesen der Produktdokumentation:

Versuchen Sie den Lernpfad:

Siehe die entsprechenden Architekturen und Anleitungen: