Lösungsmöglichkeiten
In diesem Artikel ist ein Lösungsvorschlag beschrieben. Ihr Cloudarchitekt kann diesen Leitfaden verwenden, um die Hauptkomponenten einer typischen Implementierung dieser Architektur zu visualisieren. Verwenden Sie diesen Artikel als Ausgangspunkt, um eine gut durchdachte Lösung zu entwerfen, die den spezifischen Anforderungen Ihrer Workload entspricht.
In diesem Artikel wird beschrieben, wie Sie die Bildverarbeitung, die linguistische Datenverarbeitung und benutzerdefinierte Skills zum Erfassen von domänenspezifischen Daten verwenden. Mit diesen Daten können Sie Text- und Bilddokumente anreichern. Verwenden Sie Azure KI-Suche mit KI-Anreicherung, um relevante Inhalte im großen Stil zu identifizieren und zu erkunden. Diese Lösung verwendet KI-Anreicherung, um aus dem ursprünglichen komplexen, unstrukturierten Dataset der JFK Assassination Records (Akten zu den Aufzeichnungen zum JFK-Attentat) eine Bedeutung zu extrahieren.
Aufbau
Laden Sie eine Visio-Datei dieser Architektur herunter.
Datenfluss
Der folgende Dataflow entspricht dem vorherigen Diagramm. Der Dataflow beschreibt, wie das unstrukturierte JFK Files-Dataset die Skills-Pipeline der KI-Suche durchläuft, um strukturierte und indizierbare Daten zu erzeugen.
Unstrukturierte Daten in Azure Blob Storage, wie Dokumente und Bilder, werden in KI-Suche erfasst.
Um den Indizierungsprozess einzuleiten, werden bei der Dokumententschlüsselung Bilder und Text aus den Daten extrahiert und inhaltlich angereichert. Die Anreicherungsschritte, die in diesem Prozess erfolgen, hängen von den Daten und der Art der von Ihnen ausgewählten Skills ab.
Integrierte Skills, die auf den APIs für Azure KI Vision und Azure KI Language basieren, stellen KI-Anreicherungen wie optische Zeichenerkennung (OCR), Bildanalyse, Textübersetzung, Entitätserkennung und Volltextsuche bereit.
Benutzerdefinierte Skills unterstützen Szenarien, die komplexere KI-Modelle oder Dienste erfordern. Beispiele sind Azure KI Dokument Intelligenz, Azure Machine Learning-Modelle und Azure-Funktionen.
Nach Abschluss des Anreicherungsprozesses speichert der Indexer die angereicherten und indizierten Dokumente in einem Suchindex. Die Volltextsuche und andere Abfrageformulare können diesen Index verwenden.
Die angereicherten Dokumente können auch in einen Wissensspeicher projiziert werden, den nachgeschaltete Apps wie Knowledge Mining oder Data Science verwenden können.
Abfragen greifen auf die angereicherten Inhalte im Suchindex zu. Der Index unterstützt benutzerdefinierte Analysetools, Fuzzysuchabfragen, Filter und ein Bewertungsprofil zur Abstimmung der Suchrelevanz.
Anwendungen die eine Verbindung zu Blob Storage oder zu Azure Table Storage herstellen, können auf den Wissensspeicher zugreifen.
Komponenten
Diese Lösung verwendet die folgenden Azure-Komponenten.
KI-Suche
KI Suche indiziert den Inhalt und unterstützt die Benutzerfreundlichkeit in dieser Lösung. Sie können KI-Suche verwenden, um vordefinierte KI-Skills auf Inhalte anzuwenden. Und Sie können den Erweiterbarkeitsmechanismus verwenden, um benutzerdefinierte Skills hinzuzufügen, die bestimmte Anreicherungstransformationen bereitstellen.
Azure KI Vision
Vision verwendet die Texterkennung, um Textinformationen aus Bildern zu extrahieren und zu erkennen. Die Lese-API verwendet die neuesten OCR-Erkennungsmodelle und ist für große, textintensive Dokumente und umfangreiche Bilder optimiert.
Die Legacy-OCR-API ist nicht für große Dokumente optimiert, unterstützt jedoch weitere Sprachen. Die Genauigkeit der OCR-Ergebnisse kann je nach Qualität des Scans und des Bilds variieren. Diese Lösung nutzt OCR, um Daten im hOCR-Format zu erstellen.
Sprache
Language verwendet Textanalysefähigkeiten wie Erkennung benannter Entitäten und Schlüsselbegriffserkennung, um Textinformationen aus unstrukturierten Dokumenten zu extrahieren.
Azure Storage
Bei Blob Storage handelt es sich um einen REST-basierten Objektspeicher für Daten, auf den Sie von überall auf der Welt über HTTPS zugreifen können. Sie können Blob Storage verwenden, um Daten öffentlich auf der ganzen Welt zur Verfügung zu stellen oder um Anwendungsdaten privat zu speichern. Blob Storage eignet sich ideal für große Mengen unstrukturierter Daten, z. B. Text oder Grafiken.
Table Storage speichert hochverfügbare, skalierbare, strukturierte und teilweise strukturierte NoSQL-Daten in der Cloud.
Azure-Funktionen
Functions ist ein serverloser Computedienst, mit dem Sie kleine Teile von ereignisgesteuertem Code ausführen können, ohne eine explizite Infrastruktur bereitstellen oder verwalten zu müssen. In dieser Lösung wird eine Functions-Methode verwendet, um die Liste der Central Intelligence Agency-(CIA-)Kryptonyme auf die Akten zum JFK-Attentat als benutzerdefinierten Skill anzuwenden.
Azure App Service
Diese Lösung erstellt auch eine eigenständige Web-App in Azure App Service, um den Index zu testen, zu demonstrieren, zu durchsuchen und Verbindungen in den angereicherten und indizierten Dokumenten zu erkunden.
Szenariodetails
Große, unstrukturierte Datasets können maschinengeschriebene und handschriftliche Notizen, Fotos und Diagramme sowie andere unstrukturierte Daten enthalten, die von Standardsuchlösungen nicht analysiert werden können. Die JFK Files enthalten über 34.000 Seiten an Dokumenten über die CIA-Untersuchung des JFK-Attentats von 1963.
Sie können die KI-Anreicherung in KI-Suche dazu verwenden, durchsuchbaren, indizierbaren Text aus Bildern, Blobs und anderen unstrukturierten Datenquellen wie den JFK-Akten zu extrahieren und zu verbessern. Bei der KI-Anreicherung werden vortrainierte Machine Learning-Skills aus den Azure KI Services Vision und Language verwendet. Sie können auch benutzerdefinierte Skills erstellen und anfügen, um eine spezielle Verarbeitung für domänenspezifische Daten wie etwa CIA-Kryptonyme hinzuzufügen. KI-Suche kann diesen Kontext anschließend indizieren und durchsuchen.
Die Skills der KI-Suche in dieser Lösung können in die folgenden Gruppen unterteilt werden:
Bildverarbeitung: Diese Lösung verwendet die integrierten Skills Textextraktion und Bildanalyse, einschließlich Erkennung von Objekten und Gesichtern, das Generieren von Tags und Beschriftungen sowie die Identifizierung von Prominenten und Wahrzeichen. Diese Skills erstellen Textdarstellungen von Bildinhalten, sodass sie mit den Abfragefunktionen der KI-Suche durchsucht werden können. Dokumententschlüsselung ist der Prozess des Extrahierens oder Erstellens von Textinhalt aus Nicht-Text-Quellen.
Linguistische Datenverarbeitung: Diese Lösung verwendet integrierte Skills wie Entitätserkennung, Spracherkennung und Extraktion von Schlüsselbegriffen, die unstrukturierten Text durchsuchbaren und filterbaren Feldern in einem Index zuweisen.
Benutzerdefinierte Skills: Diese Lösung verwendet benutzerdefinierte Skills, die die KI-Suche erweitern, um bestimmte Anreicherungstransformationen auf Inhalte anzuwenden. Sie können die Schnittstelle für einen benutzerdefinierten Skill über den Skill für benutzerdefinierte Web-APIs angeben.
Mögliche Anwendungsfälle
Das Beispielprojekt und den JFK-Akten und die Onlinedemo zeigen einen besonderen KI Suche-Anwendungsfall. Diese Lösungsidee ist nicht als ein Rahmenwerk oder skalierbare Architektur für alle Szenarien gedacht. Stattdessen bietet sie eine allgemeine Richtlinie und ein Beispiel. Das Codeprojekt und die Demo erstellen eine öffentliche Website und einen öffentlich lesbaren Speichercontainer für extrahierte Bilder. Daher sollten Sie diese Lösung nicht für nicht öffentliche Daten verwenden.
Sie können diese Architektur auch für Folgendes verwenden:
Steigern Sie den Wert und den Nutzen von unstrukturierten Text- und Bildinhalten in Such- und Data Science-Apps.
Verwenden Sie benutzerdefinierte Skills, um Open-Source-Code, Nicht-Microsoft-Code oder Microsoft-Code in Indizierungspipelinen zu integrieren.
Machen Sie gescannte JPG-, PNG- oder Bitmap-Dokumente durchsuchbar.
Erzielen Sie bessere Ergebnisse als bei der Standard-PDF-Textextraktion für PDF-Dateien mit Bildern und Text. Einige gescannte und native PDF-Formate werden in KI Suche unter Umständen nicht korrekt analysiert.
Erstellen Sie neue Informationen aus grundsätzlich aussagekräftigem Rohinhalt oder Kontext, der in großen unstrukturierten oder teilweise strukturierten Dokumenten verborgen ist.
Beitragende
Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben.
Hauptautor:
- Carlos Alexandre Santos | Senior Specialized AI Cloud Solution Architect
Melden Sie sich bei LinkedIn an, um nicht öffentliche LinkedIn-Profile anzuzeigen.
Nächste Schritte
Erfahren Sie mehr über diese Lösung:
- JFK-Akten-Projekt
- Video: Verwenden der KI-Suche zum Verständnis der JFK-Dokumente
- Online-Demo zu JFK-Akten
Lesen der Produktdokumentation:
- KI-Anreicherung in KI-Suche
- Was ist Vision?
- Was ist Language?
- Was ist OCR?
- Was ist die Erkennung benannter Entitäten in Language?
- Einführung in Blob Storage
- Einführung in das Thema Funktionen
Versuchen Sie den Lernpfad: