Schnellstart: Erstellen eines Skillsets für Azure Cognitive Search über das Azure-Portal

In diesem Schnellstart erfahren Sie, wie die KI-Anreicherung in Azure Cognitive Search optische Zeichenerkennung (Optical Character Recognition, OCR), Bildanalyse, Spracherkennung, Textübersetzung und Entitätserkennung hinzufügt, um im Text durchsuchbare Inhalte in einem Suchindex zu erstellen.

Sie führen den Datenimport-Assistenten im Azure-Portal aus, um Skills anzuwenden, die Inhalte während der Indizierung transformieren und anreichern. Die Ausgabe ist ein durchsuchbarer Index mit KI-generiertem Bildtext, Beschriftungen und Entitäten. Mit dem Such-Explorer sind angereicherte Inhalte im Portal abfragbar.

Zur Vorbereitung erstellen Sie einige Ressourcen und laden Beispieldateien hoch, bevor Sie den Assistenten ausführen.

Voraussetzungen

Bevor Sie beginnen können, müssen die folgenden Voraussetzungen erfüllt werden:

Hinweis

In diesem Schnellstart wird Cognitive Services für die KI verwendet. Aufgrund der geringen Workloadgröße wird Cognitive Services im Hintergrund für die kostenlose Verarbeitung von bis zu 20 Transaktionen genutzt. Sie können diese Übung durchführen, ohne eine Cognitive Services-Ressource erstellen zu müssen.

Einrichten Ihrer Daten

In den folgenden Schritten richten Sie einen Blobcontainer in Azure Storage ein, um heterogene Inhaltsdateien zu speichern.

  1. Laden Sie die Beispieldaten herunter, die aus einem kleinen Satz Dateien verschiedener Typen bestehen. Entzippen Sie die Dateien.

  2. Melden Sie sich mit Ihrem Azure-Konto beim Azure-Portal an.

  3. Erstellen Sie ein Azure Storage-Konto, oder suchen Sie nach einem vorhandenen Konto.

    • Es muss sich in der gleichen Region wie Azure Cognitive Search befinden, um Bandbreitengebühren zu vermeiden.

    • Wählen Sie „StorageV2 (universell V2)“ aus.

  4. Öffnen Sie im Azure-Portal Ihre Azure Storage-Seite, und erstellen Sie einen Container. Sie können die standardmäßige öffentliche Zugriffsebene verwenden.

  5. Klicken Sie im Container auf Hochladen, um die im ersten Schritt heruntergeladenen Beispieldateien hochzuladen. Beachten Sie, dass Ihnen ein breites Spektrum an Inhaltstypen zur Verfügung steht – einschließlich Bildern und Anwendungsdateien, die in ihren nativen Formaten für die Volltextsuche nicht geeignet sind.

    Screenshot: Quelldateien in Azure Blob Storage.

Jetzt können Sie zum Datenimport-Assistenten wechseln.

Ausführen des Datenimport-Assistenten

  1. Melden Sie sich mit Ihrem Azure-Konto beim Azure-Portal an.

  2. Suchen Sie Ihren Suchdienst, und klicken Sie auf der Seite „Übersicht“ auf der Befehlsleiste auf Daten importieren, um die kognitive Anreicherung in vier Schritten einzurichten.

    Screenshot: Befehl „Daten importieren“.

Schritt 1: Erstellen einer Datenquelle

  1. Wählen Sie unter Mit Ihren Daten verbinden die Option Azure Blob Storage aus.

  2. Wählen Sie eine vorhandene Verbindung mit dem Speicherkonto und wählen Sie den von Ihnen erstellten Container aus. Geben Sie der Datenquelle einen Namen, und verwenden Sie für alles andere die Standardwerte.

    Screenshot: Seite mit der Datenquellendefinition.

    Wechseln Sie zur nächsten Seite.

Schritt 2: Hinzufügen von kognitiven Qualifikationen

Konfigurieren Sie als nächstes die KI-Anreicherung, um OCR, Bildanalyse und Verarbeitung in natürlicher Sprache aufzurufen.

  1. In diesem Schnellstart verwenden wir die Cognitive Services-Ressource vom Typ Free. Die Beispieldaten umfassen 14 Dateien. Das kostenlose Kontingent von 20 Transaktionen für Cognitive Services ist somit für diese Schnellstartanleitung ausreichend.

    Screenshot: Registerkarte „Cognitive Services-Instanz anfügen“.

  2. Erweitern Sie Anreicherungen hinzufügen, und wählen Sie sechs Auswahlmöglichkeiten aus.

    Aktivieren Sie OCR, um der Assistentenseite Bildanalysequalifikationen hinzuzufügen.

    Wählen Sie die Entitätserkennung (Personen, Organisationen, Orte) und Bildanalysequalifikationen (Tags, Beschriftungen) aus.

    Screenshot: Seite mit der Skillsetdefinition.

    Wechseln Sie zur nächsten Seite.

Schritt 3: Konfigurieren des Indexes

Ein Index enthält Ihre durchsuchbaren Inhalte, und der Datenimport-Assistent kann in der Regel die Datenquelle untersuchen und das Schema für Sie erstellen. Überprüfen Sie in diesem Schritt das generierte Schema, und überarbeiten Sie ggf. die Einstellungen. Im Anschluss sehen Sie das für das Blobdataset der Demo erstellte Standardschema.

Für diesen Schnellstart legt der Assistent sinnvolle Standardwerte fest:

  • Die Standardfelder basieren auf den Metadateneigenschaften für vorhandene Blobs und den neuen Feldern für die Anreicherungsausgabe (z. B. people, organizations, locations). Datentypen werden aus Metadaten und Datenstichproben abgeleitet.

  • Der Standarddokumentschlüssel ist metadata_storage_path (da dieses Feld eindeutige Werte enthält).

  • Standardattribute sind Abrufbar und Durchsuchbar. Durchsuchbar ermöglicht die Volltextsuche in einem Feld. Abrufbar bedeutet, dass Feldwerte in Ergebnissen zurückgegeben werden können. Der Assistent geht davon aus, dass diese Felder abrufbar und durchsuchbar sein sollen, da Sie sie über eine Qualifikationsgruppe erstellt haben. Wählen Sie filterbar aus, wenn Sie Felder in einem Filterausdruck verwenden möchten.

    Screenshot: Seite mit der Indexdefinition.

Die Markierung eines Felds als abrufbar bedeutet nicht, dass das Feld in den Suchergebnissen vorhanden sein muss. Sie können die Zusammenstellung der Suchergebnisse präzise steuern und mit dem Abfrageparameter $select angeben, welche Felder enthalten sein sollen.

Wechseln Sie zur nächsten Seite.

Schritt 4: Konfigurieren des Indexers

Der Indexer steuert den Indizierungsprozess. Er gibt den Datenquellennamen, einen Zielindex und die Häufigkeit der Ausführung an. Der Datenimport-Assistent erstellt mehrere Objekte, und eines davon ist immer ein Indexer, den Sie zurücksetzen und wiederholt ausführen können.

  1. Auf der Seite Indexer können Sie den Standardnamen übernehmen und auf Einmal klicken, um ihn sofort auszuführen.

    Screenshot: Seite mit der Indexerdefinition.

  2. Wählen Sie Senden aus, um den Indexer zu erstellen und gleichzeitig auszuführen.

Überwachen des Status

Die Indizierung kognitiver Qualifikationen dauert länger als die übliche textbasierte Indizierung. Dies gilt insbesondere für OCR und Bildanalyse. Gehen Sie zum Überwachen des Fortschritts zur Übersichtsseite, und klicken Sie in der Mitte der Seite auf Indexer.

Screenshot: Seite mit dem Indexerstatus.

Wenn Sie Details zum Ausführungsstatus überprüfen möchten, wählen Sie einen Indexer aus der Liste aus, und wählen Sie dann Erfolgreich (oder Fehlgeschlagen) aus, um Ausführungsdetails anzuzeigen.

Diese Demo enthält eine Warnung: „Der Skill konnte nicht ausgeführt werden, weil eine oder mehrere Eingaben für den Skill ungültig waren“. Diese Warnung weist Sie darauf hin, dass eine PNG-Datei in der Datenquelle keine Texteingabe für die Entitätserkennung bereitstellt. Die Warnung erfolgt, weil der Upstream-OCR-Skill keinen Text im Bild erkannt hat und deshalb keine Texteingabe für den Downstream-Skill „Entitätserkennung“ bereitstellen konnte.

Warnungen kommen bei der Ausführung von Skillsets häufig vor. Wenn Sie sich damit vertraut machen, wie Fertigkeiten über Ihre Daten iterieren, werden Sie anfangen, Muster zu erkennen und lernen, welche Warnungen Sie getrost ignorieren können.

Abfragen im Suchexplorer

Nachdem ein Index erstellt wurde, können Sie im Such-Explorer Abfragen ausführen, um Ergebnisse zu erhalten.

  1. Klicken Sie auf der Dashboardseite des Suchdiensts in der Befehlsleiste auf Such-Explorer.

  2. Wählen Sie oben Index ändern aus, um den von Ihnen erstellten Index auszuwählen.

  3. Geben Sie eine Suchzeichenfolge ein, um den Index abzufragen, z.B. search=Satya Nadella&$select=people,organizations,locations&$count=true.

Die Ergebnisse werden als ausführliches JSON zurückgegeben, was vor allem bei großen Dokumenten schwer zu lesen sein kann. Einige Tipps für die Suche in diesem Tool umfassen die folgenden Techniken:

  • Fügen Sie $select an, um die in Ergebnissen zurückgegebenen Felder einzuschränken.
  • Suchen Sie mit STRG+F im JSON-Code nach bestimmten Eigenschaften oder Begriffen.

Bei Abfragezeichenfolgen wird die Groß-/Kleinschreibung beachtet. Wenn Sie also eine Meldung „Unbekanntes Feld“ erhalten, überprüfen Sie Felder oder Indexdefinition (JSON) , um Name und Schreibweise zu überprüfen.

Screenshot der Seite mit dem Suchexplorer

Wesentliche Punkte

Sie haben nun Ihr erstes Skillset erstellt und sich mit wichtigen Konzepten vertraut gemacht, die für die Erstellung von Prototypen für eine angereicherte Suchlösung mit Ihren eigenen Daten hilfreich sind.

Einige wichtige Konzepte, von denen wir hoffen, dass Sie sie verinnerlicht haben, schließen die Abhängigkeit von Azure-Datenquellen ein. Ein Skillset ist an einen Indexer gebunden, und Indexer sind Azure- und quellenspezifisch. In dieser Schnellstartanleitung wird Azure Blob Storage verwendet. Es können aber auch andere Azure-Datenquellen verwendet werden. Weitere Informationen finden Sie unter Indexer in Azure Cognitive Search.

Ein weiteres wichtiges Konzept ist, dass Skills mit Inhaltstypen arbeiten und bei der Arbeit mit heterogenen Inhalten einige Eingaben übersprungen werden. Außerdem können große Dateien oder Felder die Indexergrenzwerte ihrer Dienstebene überschreiten. Es ist normal, dass Warnungen angezeigt werden, wenn diese Ereignisse auftreten.

Die Ausgabe wird an einen Suchindex geleitet, und es gibt eine Zuordnung zwischen Name-Wert-Paaren, die während der Indizierung erstellt wurden, und einzelnen Feldern in Ihrem Index. Intern richtet das Portal Anmerkungen ein und definiert eine Qualifikationsgruppe, um die Reihenfolge der Vorgänge und den allgemeinen Ablauf festzulegen. Diese Schritte sind im Portal ausgeblendet, werden aber wichtig, wenn Sie selbst mit der Erstellung von Code beginnen.

Außerdem haben Sie gelernt, dass Sie Inhalte durch Abfragen des Index überprüfen können. Azure Cognitive Search stellt letztendlich einen durchsuchbaren Index bereit, den Sie entweder mit der einfachen oder mit der vollständig erweiterten Abfragesyntax abfragen können. Ein Index, der angereicherte Felder enthält, ist wie jeder andere. Wenn Sie standardmäßige oder benutzerdefinierte Analysetools, Bewertungsprofile, Synonyme, Facettennavigation, die geografische Suche oder andere Azure Cognitive Search-Features einbeziehen möchten, stehen Ihnen alle Wege offen.

Bereinigen von Ressourcen

Wenn Sie in Ihrem eigenen Abonnement arbeiten, sollten Sie sich am Ende eines Projekts überlegen, ob Sie die erstellten Ressourcen noch benötigen. Ressourcen, die weiterhin ausgeführt werden, können Sie Geld kosten. Sie können entweder einzelne Ressourcen oder aber die Ressourcengruppe löschen, um den gesamten Ressourcensatz zu entfernen.

Ressourcen können im Portal über den Link Alle Ressourcen oder Ressourcengruppen im linken Navigationsbereich gesucht und verwaltet werden.

Denken Sie bei Verwendung eines kostenlosen Diensts an die Beschränkung auf maximal drei Indizes, Indexer und Datenquellen. Sie können einzelne Elemente über das Portal löschen, um unter dem Limit zu bleiben.

Nächste Schritte

Skillsets können über das Portal, per .NET SDK oder per REST-API erstellt werden. Probieren Sie bei Interesse die REST-API mit Postman und weiteren Beispieldaten aus.