Freigeben über


Schnellstart: Assistent zum Importieren und Vektorisieren von Daten (Vorschauversion)

Wichtig

Der Assistent zum Importieren und Vektorisieren von Daten befindet sich in der öffentlichen Vorschau unter Ergänzende Nutzungsbedingungen. Er zielt standardmäßig auf die REST-API „2024-05-01-preview“ ab.

Erste Schritte mit der integrierten Vektorisierung (Vorschau) mithilfe des Assistenten zum Importieren und Vektorisieren von Daten im Azure-Portal. Dieser Assistent ruft ein von einem Benutzer angegebenes Einbettungsmodell auf, um Inhalte während der Indizierung und für Abfragen zu vektorisieren.

Sie benötigen drei Azure-Ressourcen und einige Beispieldateien, um diese exemplarische Vorgehensweise abzuschließen:

  • Azure Blob Storage oder Microsoft Fabric mit OneLake für Ihre Daten
  • Azure-Vektorisierungen: Konto mit mehreren Azure KI Services-Diensten, Azure OpenAI oder Azure KI Studio-Modellkatalog
  • Azure KI-Suche für Indizierung und Abfragen

Einschränkungen der Vorschau

  • Bei den Quelldaten handelt es sich entweder um Azure Blob Storage- oder OneLake-Dateien und -Verknüpfungen, wobei der Standardanalysemodus (ein Suchdokument pro Blob oder Datei) verwendet wird.

  • Das Indexschema ist nicht konfigurierbar. Zu den Quellfeldern gehören „content“ (aufgeteilt und vektorisiert), „metadata_storage_name“ für den Titel und „metadata_storage_path“ für den Dokumentschlüssel, der im Index als parent_id angegeben wird.

  • Die Aufteilung (Chunking) ist nicht konfigurierbar. Die effektiven Einstellungen sind:

    textSplitMode: "pages",
    maximumPageLength: 2000,
    pageOverlapLength: 500
    

Wenn Sie weniger Einschränkungen oder mehr Optionen für Datenquellen benötigen, sollten Sie einen Codebasisansatz wählen. Ausführliche Informationen finden Sie im Beispiel zur integrierten Vektorisierung.

Voraussetzungen

  • Ein Azure-Abonnement. Erstellen Sie ein kostenloses Konto.

  • Verwenden Sie für Daten entweder ein Azure Storage-Konto oder ein OneLake Lakehouse. Verwenden Sie für Azure Storage ein Konto mit Standardleistung (Allgemein V2). Sie können die heiße oder kalte Zugriffsebene oder eine Zugriffsebene vom Typ „Cold“ verwenden.

  • Für die Vektorisierung benötigen Sie ein Konto mit mehreren Azure KI Services-Diensten oder einen Azure OpenAI-Endpunkt mit Bereitstellungen.

    Erstellen Sie für multimodale Einbettungen mit Azure KI Vision einen Azure KI-Dienst in einer der folgenden Regionen: SwedenCentral, EastUS, NorthEurope, WestEurope, WestUS, SoutheastAsia, KoreaCentral, FranceCentral, AustraliaEast, WestUS2, SwitzerlandNorth, JapanEast. Eine aktualisierte Liste finden Sie in der Dokumentation.

    Sie können auch einen Azure KI Studio-Modellkatalog (sowie einen Hub und ein Projekt) mit Modellbereitstellungen verwenden.

  • Azure KI-Suche in derselben Region wie Ihr Azure KI-Dienst. Empfohlen wird der Tarif „Basic“ oder ein höherer Tarif.

  • Rollenzuweisungen oder API-Schlüssel sind für Verbindungen mit Einbettungsmodellen und Datenquellen erforderlich. In diesem Artikel finden Sie eine Anleitung für rollenbasierten Zugriff.

Für alle oben genannten Ressourcen muss der öffentliche Zugriff aktiviert sein, damit die Portalknoten auf sie zugreifen können. Andernfalls tritt im Assistenten ein Fehler auf. Nachdem der Assistent ausgeführt wurde, können Firewalls und private Endpunkte für die verschiedenen Integrationskomponenten zur Sicherheit aktiviert werden.

Wenn bereits private Endpunkte vorhanden sind und nicht deaktiviert werden können, besteht die alternative Möglichkeit darin, den entsprechenden End-to-End-Flow von einem Skript oder Programm aus einem virtuellen Computer innerhalb des virtuellen Netzwerks auszuführen, in dem sich der private Endpunkt befindet. Hier ist ein Python-Codebeispiel für die integrierte Vektorisierung. In demselben GitHub-Repository sind Beispiele in anderen Programmiersprachen.

Ein Suchdienst im Free-Tarif bietet Unterstützung für die rollenbasierte Zugriffssteuerung für Verbindungen mit Azure KI-Suche, jedoch nicht für verwaltete Identitäten bei ausgehenden Verbindungen mit Azure Storage oder Azure KI Vision. Das bedeutet, dass Sie die schlüsselbasierte Authentifizierung für Verbindungen über Suchdienste im Free-Tarif mit anderen Azure-Diensten verwenden müssen. Verwenden Sie den Basic-Tarif oder höher für sicherere Verbindungen. Führen Sie außerdem die Konfiguration einer verwalteten Identität und Rollenzuweisungen durch, um Anforderungen von Azure KI-Suche für andere Azure-Dienste zuzulassen.

Überprüfen des Speicherplatzes

Wenn Sie mit dem kostenlosen Tarif beginnen, sind Sie auf drei Indizes, drei Datenquellen, drei Skillsets und drei Indexer beschränkt. Stellen Sie sicher, dass Sie über ausreichend Platz für zusätzliche Elemente verfügen, bevor Sie beginnen. In diesem Schnellstart wird jeweils eines dieser Objekte erstellt.

Überprüfen auf Dienstidentität

Wir empfehlen Rollenzuweisungen für Suchdienstverbindungen mit anderen Ressourcen.

  1. Aktivieren Sie die rollenbasierte Azure-Zugriffssteuerung in Azure KI-Suche.

  2. Konfigurieren Sie Ihren Suchdienst so, dass ein System oder eine benutzerseitig zugewiesene verwaltete Identität verwendet wird.

In den folgenden Abschnitten können Sie die verwaltete Identität des Suchdiensts Rollen in anderen Diensten zuweisen. Gegebenenfalls werden Schritte für Rollenzuweisungen bereitgestellt.

Überprüfen auf semantische Rangfolge

Dieser Assistent unterstützt die semantische Rangfolge, aber nur im Tarif „Basic“ und höher und nur, wenn die semantische Rangfolge bereits für Ihren Suchdienst aktiviert ist. Wenn Sie einen abrechenbaren Tarif verwenden, überprüfen Sie, ob die semantische Rangfolge aktiviert ist.

Vorbereiten der Beispieldaten

Dieser Abschnitt verweist auf Daten, die für diese Schnellstartanleitung funktionieren.

  1. Melden Sie sich mit Ihrem Azure-Konto beim Azure-Portal an und wechseln Sie zu Ihrem Azure Storage-Konto.

  2. Wählen Sie im Navigationsbereich unter Datenspeicher die Option Container aus.

  3. Erstellen Sie einen neuen Container, und laden Sie dann die PDF-Dokumente für den Integritätsplan hoch, die für diese Schnellstartanleitung verwendet werden.

  4. Weisen Sie unter Zugriffssteuerung die Rolle Storage-Blobdatenleser im Container der Suchdienstidentität zu. Oder rufen Sie eine Verbindungszeichenfolge mit dem Speicherkonto von der Access-Schlüsselseite ab.

Einrichten von Einbettungsmodellen

Integrierte Vektorisierung und der Assistent zum Importieren und Vektorisieren von Daten nutzen während der Indizierung bereitgestellte Einbettungsmodelle, um Text und Bilder in Vektoren zu konvertieren.

Sie können Einbettungsmodelle verwenden, die in Azure OpenAI, Azure KI Vision (für multimodale Einbettungen) oder im Modellkatalog in Azure KI Studio bereitgestellt werden.

Importieren und Vektorisieren von Daten unterstützt Folgendes: text-embedding-ada-002, text-embedding-3-large, text-embedding-3-small. Intern verwendet der Assistent den AzureOpenAIEmbedding-Skill, um eine Verbindung mit Azure OpenAI herzustellen.

Verwenden Sie diese Anweisungen, um Berechtigungen zuzuweisen oder einen API-Schlüssel für die Suchdienstverbindung mit Azure OpenAI abzurufen. Bevor Sie den Assistenten ausführen, sollten Sie Berechtigungen einrichten oder Verbindungsinformationen bereithalten.

  1. Melden Sie sich mit Ihrem Azure-Konto beim Azure-Portal an und wechseln Sie zu Ihrer Azure OpenAI-Ressource.

  2. Richten Sie Berechtigungen ein:

    1. Wählen Sie im linken Menü Zugriffssteuerung aus.

    2. Wählen Sie Hinzufügen und dann Rollenzuweisung hinzufügen aus.

    3. Wählen Sie unter Auftragsfunktionsrolle die Option Cognitive Services OpenAI-Benutzer und dann Weiter aus.

    4. Wählen Sie unter Mitglieder die Option Verwaltete Identität und dann Mitglieder aus.

    5. Filtern Sie nach Abonnement und Ressourcentyp (Suchdienste), und wählen Sie dann die verwaltete Identität Ihres Suchdiensts aus.

    6. Wählen Sie Überprüfen und zuweisen aus.

  3. Wählen Sie auf der Seite „Übersicht“ die Option Klicken Sie hier, um die Endpunkte anzuzeigen und Klicken Sie hier, um Schlüssel zu verwalten aus, wenn Sie einen Endpunkt oder API-Schlüssel kopieren müssen. Sie können diese Werte in den Assistenten einfügen, wenn Sie eine Azure OpenAI-Ressource mit schlüsselbasierter Authentifizierung verwenden.

  4. Wählen Sie unter Ressourcenverwaltung und Modellbereitstellungen die Option Bereitstellungen verwalten aus, um Azure KI Studio zu öffnen.

  5. Kopieren Sie den Bereitstellungsnamen von „text-embedding-ada-002“ oder eines anderen unterstützten Einbettungsmodells. Wenn Sie kein Einbettungsmodell haben, stellen Sie jetzt eins bereit.

Starten des Assistenten

  1. Melden Sie sich mit Ihrem Azure-Konto beim Azure Portal an und wechseln Sie zu Ihrem Azure AI Search-Dienst.

  2. Wählen Sie auf der Seite Übersicht die Option Importieren und Vektorisieren von Daten aus.

    Screenshot des Assistentenbefehls.

Herstellen einer Verbindung mit Ihren Daten

Der nächste Schritt besteht darin, eine Verbindung mit einer Datenquelle herzustellen, die für den Suchindex verwendet werden soll.

  1. Erweitern Sie im Assistenten zum Importieren und Vektorisieren von Daten auf der Registerkarte Mit Ihren Daten verbinden die Dropdownliste Datenquelle, und wählen Sie Azure Blob Storageoder OneLake aus.

  2. Geben Sie das Azure-Abonnement an.

  3. Geben Sie für OneLake die Lakehouse-URL an, oder geben Sie die Arbeitsbereichs- und Lakehouse-IDs an.

  4. Wählen Sie für Azure Storage das Konto und den Container aus, der die Daten bereitstellt.

  5. Geben Sie an, ob Sie Löscherkennung nutzen möchten.

  6. Wählen Sie Weiter aus.

Vektorisieren Ihres Texts

Geben Sie in diesem Schritt das Einbettungsmodell an, das zum Vektorisieren der aufgeteilten Daten verwendet wird.

  1. Geben Sie an, ob bereitgestellte Modelle in Azure OpenAI, im Azure KI Studio-Modellkatalog oder in einer vorhandenen multimodalen Azure KI Vision-Ressource in derselben Region wie Azure KI-Suche vorhanden sind.

  2. Geben Sie das Azure-Abonnement an.

  3. Wählen Sie für Azure OpenAI den Dienst, die Modellbereitstellung und den Authentifizierungstyp aus. Ausführliche Informationen finden Sie unter Einrichten von Einbettungsmodellen.

  4. Wählen Sie für den KI Studio-Katalog das Projekt, die Modellbereitstellung und den Authentifizierungstyp aus. Ausführliche Informationen finden Sie unter Einrichten von Einbettungsmodellen.

  5. Wählen Sie für die KI Vision-Vektorisierung das Konto aus. Ausführliche Informationen finden Sie unter Einrichten von Einbettungsmodellen.

  6. Aktivieren Sie das Kontrollkästchen, um die Auswirkungen der Nutzung dieser Ressourcen auf die Abrechnung zu bestätigen.

  7. Wählen Sie Weiter aus.

Vektorisieren und Anreichern Ihrer Bilder

Wenn Ihre Inhalte Bilder enthalten, können Sie KI auf zwei Arten anwenden:

  • Verwenden Sie ein unterstütztes Bildeinbettungsmodell aus dem Katalog, oder wählen Sie die Azure KI Vision-API für multimodale Einbettungen aus, um Bilder zu vektorisieren.
  • Verwenden Sie OCR, um Text in Bildern zu erkennen.

Azure KI-Suche und Ihre Azure KI-Ressource müssen sich in derselben Region befinden.

  1. Geben Sie die Art der Verbindung an, die der Assistent herstellen soll. Für die Bildvektorisierung kann eine Verbindung mit Einbettungsmodellen in Azure KI Studio oder Azure KI Vision hergestellt werden.

  2. Geben Sie das Abonnement an.

  3. Geben Sie für den Azure KI Studio-Modellkatalog das Projekt und die Bereitstellung an. Ausführliche Informationen finden Sie unter Einrichten eines Einbettungsmodells.

  4. Optional können Sie binäre Bilder (z. B. gescannte Dokumentdateien) knacken und OCR verwenden, um Text zu erkennen.

  5. Aktivieren Sie das Kontrollkästchen, um die Auswirkungen der Nutzung dieser Ressourcen auf die Abrechnung zu bestätigen.

  6. Wählen Sie Weiter aus.

Erweiterte Einstellungen

  1. Optional können Sie eine semantische Rangfolge hinzufügen, um die Ergebnisse am Ende der Abfrageausführung neu zu ranken, wobei die semantisch relevantesten Übereinstimmungen nach oben gestellt werden.

  2. Geben Sie optional einen Laufzeitzeitplan für den Indexer an.

  3. Wählen Sie Weiter aus.

Ausführen des Assistenten

  1. Geben Sie beim Überprüfen und Erstellen ein Präfix für die Objekte an, die beim Ausführen des Assistenten erstellt werden. Ein allgemeines Präfix hilft Ihnen, den Überblick zu behalten.

  2. Wählen Sie Erstellen aus, um den Assistenten auszuführen. In diesem Schritt werden die folgenden Objekte erstellt:

    • Datenquellenverbindung

    • Index mit Vektorfeldern, Vektorizern, Vektorprofilen, Vektoralgorithmen. Sie werden nicht aufgefordert, den Standardindex während des Assistentenworkflows zu entwerfen oder zu ändern. Indizes entsprechen der REST-API „2024-05-01-preview“.

    • Skillset mit dem Skill „Textaufteilung“ für die Blockerstellung und Einbettungsskill für die Vektorisierung. Der Einbettungsskill ist entweder der AzureOpenAIEmbeddingModel-Skill für Azure OpenAI oder der AML-Skill für den Azure KI Studio-Modellkatalog.

    • Indexer mit Feldzuordnungen und Ausgabefeldzuordnungen (falls zutreffend).

Wenn Sie die Azure KI Vision-Vektorisierung nicht auswählen können, stellen Sie sicher, dass Sie über eine Azure KI Vision-Ressource in einer unterstützten Region verfügen und dass die verwaltete Identität Ihres Suchdiensts über Berechtigungen vom Typ Cognitive Services OpenAI-Benutzer verfügt.

Wenn Sie den Assistenten nicht durchlaufen können, weil andere Optionen nicht verfügbar sind (beispielsweise können Sie keine Datenquelle oder kein Einbettungsmodell auswählen), überprüfen Sie die Rollenzuweisungen. Fehlermeldungen deuten darauf hin, dass Modelle oder Bereitstellungen nicht vorhanden sind, obwohl das eigentliche Problem darin besteht, dass der Suchdienst keine Zugriffsberechtigung für sie hat.

Überprüfen der Ergebnisse

Der Such-Explorer akzeptiert Textzeichenfolgen als Eingabe und vektorisiert dann den Text für die Ausführung von Vektorabfragen.

  1. Wählen Sie im Azure-Portal unter Suchverwaltung und Indizes den von Ihnen erstellten Index aus.

  2. Wählen Sie optional Abfrageoptionen aus, und blenden Sie Vektorwerte in den Suchergebnissen aus. Durch diesen Schritt werden die Suchergebnisse übersichtlicher.

    Screenshot der Schaltfläche Abfrageoptionen.

  3. Wählen Sie JSON-Ansicht aus, damit Sie Text für Ihre Vektorabfrage im text-Vektorabfrageparameter eingeben können.

    Screenshot des JSON-Selektors.

    Dieser Assistent enthält eine Standardabfrage, die eine Vektorabfrage im Feld „vector“ ausgibt und die fünf nächsten Nachbarn zurückgibt. Wenn Sie Vektorwerte ausblenden, enthält Ihre Standardabfrage eine select-Anweisung, die das Vektorfeld aus den Suchergebnissen ausschließt.

    {
       "select": "chunk_id,parent_id,chunk,title",
       "vectorQueries": [
           {
              "kind": "text",
              "text": "*",
              "k": 5,
              "fields": "vector"
           }
        ]
    }
    
  4. Ersetzen Sie den Text "*" durch eine Frage im Zusammenhang mit Gesundheitsplänen, z. B. Welcher Plan hat die niedrigste Eigenbeteiligung?.

  5. Wählen Sie Suchen aus, um die Abfrage auszuführen.

    Screenshot der Suchergebnisse.

    Es sollten fünf Übereinstimmungen angezeigt werden, wobei jedes Dokument ein Block der ursprünglichen PDF-Datei ist. Das Titelfeld zeigt an, aus welcher PDF-Datei der Block stammt.

  6. Um alle Blöcke aus einem bestimmten Dokument anzuzeigen, fügen Sie einen Filter für das Titelfeld für eine bestimmte PDF-Datei hinzu:

    {
       "select": "chunk_id,parent_id,chunk,title",
       "filter": "title eq 'Benefit_Options.pdf'",
       "count": true,
       "vectorQueries": [
           {
              "kind": "text",
              "text": "*",
              "k": 5,
              "fields": "vector"
           }
        ]
    }
    
    

Bereinigung

Azure AI Search ist eine abrechenbare Ressource. Wenn sie nicht mehr benötigt wird, löschen Sie sie aus Ihrem Abonnement, um Gebühren zu vermeiden.

Nächste Schritte

In dieser Schnellstartanleitung haben Sie den Assistenten zum Importieren und Vektorisieren von Daten eingeführt, der alle Objekte erstellt, die für die integrierte Vektorisierung erforderlich sind. Wenn Sie jeden Schritt im Detail untersuchen möchten, probieren Sie eines der integrierten Vektorisierungsbeispiele aus.