Implementieren der integrierten Vektorisierung mit Modellen aus Azure KI Studio

Artikel
05/21/2024

Wichtig

Dieses Feature befindet sich in der Public Preview-Phase und unterliegt zusätzlichen Nutzungsbedingungen. Die REST-API „2024-05-01-Preview“ unterstützt dieses Feature.

In diesem Artikel erfahren Sie, wie Sie auf die Einbettungsmodelle im Azure KI Studio-Modellkatalog für Vektorkonvertierungen während der Indizierung und in Abfragen in Azure KI-Suche zugreifen.

Der Bereitstellungsworkflow umfasst Schritte für die Modellimplementierung. Der Modellkatalog enthält Einbettungsmodelle von Azure OpenAI, Cohere, Facebook und OpenAI. Die Bereitstellung eines Modells wird entsprechend der Abrechnungsstruktur des jeweiligen Anbieters in Rechnung gestellt.

Nachdem das Modell bereitgestellt wurde, können Sie es für die integrierte Vektorisierung während der Indizierung oder mit der KI Studio-Vektorisierung für Abfragen verwenden.

Bereitstellen eines Einbettungsmodells aus dem Azure KI Studio-Modellkatalog

Öffnen Sie den Azure KI Studio-Modellkatalog.
Wenden Sie einen Filter an, um nur die Einbettungsmodelle anzuzeigen. Wählen Sie unter Rückschlussaufgaben die Option Einbettungen aus:
Wählen Sie das Modell aus, mit dem Sie Ihre Inhalte vektorisieren möchten. Wählen Sie dann Bereitstellen und eine Bereitstellungsoption aus.
Geben Sie die erforderlichen Details ein. Wählen Sie ein KI-Projekt aus, oder erstellen Sie ein neues KI-Projekt, und wählen Sie dann Bereitstellenaus. Die Bereitstellungsdetails variieren je nach ausgewähltem Modell.
Warten Sie, bis die Bereitstellung des Modells abgeschlossen ist, indem Sie den Bereitstellungsstatus überwachen. Der Status sollte sich von „Wird bereitgestellt“ in „Wird aktualisiert“ und schließlich in „Erfolgreich“ ändern. Möglicherweise müssen Sie nach ein paar Minuten Aktualisieren auswählen, damit der Status aktualisiert wird.
Kopieren Sie die Werte in den Feldern „URL“, Primärschlüssel“ und „Modell-ID“ zur späteren Verwendung. Sie benötigen diese Werte für die Vektorisierungsdefinition in einem Suchindex und für das Skillset, das die Modellendpunkte während der Indizierung aufruft.

Optional können Sie Ihren Endpunkt so ändern, dass die Tokenauthentifizierung anstelle der Schlüsselauthentifizierung verwendet wird. Wenn Sie die Tokenauthentifizierung aktivieren, müssen Sie nur die URL und die Modell-ID kopieren. Notieren Sie auch die Region, in der das Modell bereitgestellt wird.
Sie können jetzt einen Suchindex und einen Indexer zum Verwenden des bereitgestellten Modells konfigurieren.
- Informationen dazu, wie Sie das Modell während der Indizierung verwenden, finden Sie in den Schritten zum Aktivieren der integrierten Vektorisierung. Achten Sie darauf, den Azure Machine Learning (AML)-Skill und nicht den AzureOpenAIEmbedding-Skill zu verwenden. Im nächsten Abschnitt wird die Skillkonfiguration beschrieben.
- Informationen dazu, wie Sie das Modell zur Abfragezeit als Vektorisierung verwenden, finden Sie unter Konfigurieren einer Vektorisierung. Für diesen Schritt müssen Sie die Vektorisierung aus dem Azure KI Studio-Modellkatalog verwenden.

Beispiel für AML-Skillnutzdaten

Wenn Sie Einbettungsmodelle aus dem Azure KI Studio-Modellkatalog bereitstellen, stellen Sie für Indizierungsworkloads über den AML-Skill in Azure KI-Suche eine Verbindung mit ihnen her.

In diesem Abschnitt werden die AML-Skilldefinition und Indexzuordnungen beschrieben. Er enthält Beispielnutzdaten, die bereits für die Verwendung mit den entsprechenden bereitgestellten Endpunkten konfiguriert sind. Weitere technische Details zur Funktionsweise dieser Nutzdaten finden Sie unter Skillkontext und Eingabeanmerkungssprache.

Diese AML-Skillnutzdaten funktionieren mit den folgenden Modellen aus KI Studio:

OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32
OpenAI-CLIP-Image-Text-Embeddings-ViT-Large-Patch14-336

Es wird davon ausgegangen, dass Sie Ihre Inhalte mit dem Textaufteilungsskill segmentieren und sich der zu vektorisierende Text im Pfad /document/pages/* befindet. Wenn Ihr Text aus einem anderen Pfad stammt, aktualisieren Sie alle Verweise auf den Pfad /document/pages/* entsprechend.

Der URI und der Schlüssel werden generiert, wenn Sie das Modell aus dem Katalog bereitstellen. Weitere Informationen zu diesen Werten finden Sie unter So stellen Sie große Sprachmodelle mit Azure KI Studio bereit.

{
  "@odata.type": "#Microsoft.Skills.Custom.AmlSkill",
  "context": "/document/pages/*",
  "uri": "{YOUR_MODEL_URL_HERE}",
  "key": "{YOUR_MODEL_KEY_HERE}",
  "inputs": [
    {
      "name": "input_data",
      "sourceContext": "/document/pages/*",
      "inputs": [
        {
          "name": "columns",
          "source": "=['image', 'text']"
        },
        {
          "name": "index",
          "source": "=[0]"
        },
        {
          "name": "data",
          "source": "=[['', $(/document/pages/*)]]"
        }
      ]
    }
  ],
  "outputs": [
    {
      "name": "text_features"
    }
  ]
}

Diese AML-Skillnutzdaten funktionieren mit den folgenden Modellen aus KI Studio:

OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32
OpenAI-CLIP-Image-Text-Embeddings-ViT-Large-Patch14-336
Facebook-DinoV2-Image-Embeddings-ViT-Base
Facebook-DinoV2-Image-Embeddings-ViT-Giant

Es wird davon ausgegangen, dass Ihre Bilder aus dem Pfad /document/normalized_images/* stammen, der durch Aktivieren der integrierten Bildextraktion erstellt wird. Wenn Ihre Bilder aus einem anderen Pfad stammen oder als URLs gespeichert sind, aktualisieren Sie alle Verweise auf den Pfad /document/normalized_images/* entsprechend.

{
  "@odata.type": "#Microsoft.Skills.Custom.AmlSkill",
  "context": "/document/normalized_images/*",
  "uri": "{YOUR_MODEL_URL_HERE}",
  "key": "{YOUR_MODEL_HERE}",
  "inputs": [
    {
      "name": "input_data",
      "sourceContext": "/document/normalized_images/*",
      "inputs": [
        {
          "name": "columns",
          "source": "=['image', 'text']"
        },
        {
          "name": "index",
          "source": "=[0]"
        },
        {
          "name": "data",
          "source": "=[[$(/document/normalized_images/*/data), '']]"
        }
      ]
    }
  ],
  "outputs": [
    {
      "name": "image_features"
    }
  ]
}

Diese AML-Skillnutzdaten funktionieren mit den folgenden Modellen aus KI Studio:

Cohere-embed-v3-english
Cohere-embed-v3-multilingual

Es wird davon ausgegangen, dass Sie Ihre Inhalte mit SplitSkill (Aufteilungsskill) segmentieren und sich der zu vektorisierende Text daher im Pfad /document/pages/* befindet. Wenn Ihr Text aus einem anderen Pfad stammt, aktualisieren Sie alle Verweise auf den Pfad /document/pages/* entsprechend.

Sie müssen den Pfad /v1/embed am Ende der URL hinzufügen, die Sie aus Ihrer KI Studio-Bereitstellung kopiert haben. Sie können auch die Werte für die Eingaben input_type, truncate und embedding_types ändern, um Sie an Ihren Anwendungsfall anzupassen. Weitere Informationen zu den verfügbaren Optionen finden Sie in der Referenz zur Cohere Embed-API.

Der URI und der Schlüssel werden generiert, wenn Sie das Modell aus dem Katalog bereitstellen. Weitere Informationen zu diesen Werten finden Sie unter Bereitstellen von Cohere Embed-Modellen mit Azure KI Studio.

{
  "@odata.type": "#Microsoft.Skills.Custom.AmlSkill",
  "context": "/document/pages/*",
  "uri": "{YOUR_MODEL_URL_HERE}/v1/embed",
  "key": "{YOUR_MODEL_KEY_HERE}",
  "inputs": [
    {
      "name": "texts",
      "source": "=[$(/document/pages/*)]"
    },
    {
      "name": "input_type",
      "source": "='search_document'"
    },
    {
      "name": "truncate",
      "source": "='NONE'"
    },
    {
      "name": "embedding_types",
      "source": "=['float']"
    }
  ],
  "outputs": [
    {
      "name": "embeddings",
      "targetName": "aml_vector_data"
    }
  ]
}

Darüber hinaus handelt es sich bei der Ausgabe des Cohere-Modells nicht direkt um das Einbettungsarray, sondern um ein JSON-Objekt, das dieses enthält. Sie müssen es entsprechend auswählen, wenn sie es der Indexdefinition über indexProjections oder outputFieldMappings zuordnen. Im Folgenden sehen Sie indexProjections-Beispielnutzdaten, mit denen Sie diese Zuordnung implementieren können.

Wenn Sie in Ihrer Skilldefinition einen anderen Typ für embedding_types ausgewählt haben, müssen Sie float im Pfad source in den Typ ändern, den Sie stattdessen ausgewählt haben.

"indexProjections": {
  "selectors": [
    {
      "targetIndexName": "{YOUR_TARGET_INDEX_NAME_HERE}",
      "parentKeyFieldName": "ParentKey", // Change this to the name of the field in your index definition where the parent key will be stored
      "sourceContext": "/document/pages/*",
      "mappings": [
        {
          "name": "aml_vector", // Change this to the name of the field in your index definition where the Cohere embedding will be stored
          "source": "/document/pages/*/aml_vector_data/float/0"
        }
      ]
    }
  ],
  "parameters": {}
}

Beispiel für KI Studio-Vektorisierungsnutzdaten

Die KI Studio-Vektorisierung ist im Gegensatz zum AML-Skill nur für die Verwendung mit den Einbettungsmodellen konzipiert, die über den KI Studio-Modellkatalog bereitgestellt werden können. Der Hauptunterschied besteht darin, dass Sie sich keine Gedanken über die Anforderungs- und Antwortnutzdaten machen müssen. Sie müssen jedoch den modelName angeben, der der „Modell-ID“ entspricht, die Sie nach der Bereitstellung des Modells in KI Studio kopiert haben.

Die folgenden Beispielnutzdaten zeigen, wie Sie die Vektorisierung in Ihrer Indexdefinition anhand der aus KI Studio kopierten Eigenschaften konfigurieren würden.

Bei Cohere-Modellen sollten Sie den Pfad /v1/embed NICHT wie beim Skill am Ende Ihrer URL hinzufügen.

"vectorizers": [
    {
        "name": "{YOUR_VECTORIZER_NAME_HERE}",
        "kind": "aml",
        "amlParameters": {
            "uri": "{YOUR_URL_HERE}",
            "key": "{YOUR_PRIMARY_KEY_HERE}",
            "modelName": "{YOUR_MODEL_ID_HERE}"
        },
    }
]

Herstellen einer Verbindung mithilfe der Tokenauthentifizierung

Wenn Sie die schlüsselbasierte Authentifizierung nicht verwenden können, können Sie die Verbindung mit dem AML-Skill und der KI Studio-Vektorisierung stattdessen für die Tokenauthentifizierung über die rollenbasierte Zugriffssteuerung (Role-Based Access Control, RBAC) in Azure konfigurieren. Der Suchdienst muss über eine systemseitig oder benutzerseitig zugewiesene verwaltete Identität verfügen, und der Identität müssen Berechtigungen vom Typ „Besitzer“ oder „Mitwirkender“ für Ihren AML-Projektarbeitsbereich zugewiesen sein. Anschließend können Sie das Schlüsselfeld aus Ihrer Skill- und Vektorisierungsdefinition entfernen und durch das Feld „resourceId“ ersetzen. Wenn sich Ihr AML-Projekt und der Suchdienst in verschiedenen Regionen befinden, müssen Sie auch das Feld „region“ bereitstellen.

"uri": "{YOUR_URL_HERE}",
"resourceId": "subscriptions/{YOUR_SUBSCRIPTION_ID_HERE/resourceGroups/{YOUR_RESOURCE_GROUP_NAME_HERE}/providers/Microsoft.MachineLearningServices/workspaces/{YOUR_AML_WORKSPACE_NAME_HERE}/onlineendpoints/{YOUR_AML_ENDPOINT_NAME_HERE}",
"region": "westus", // Only need if AML project lives in different region from search service

Teilen über

Implementieren der integrierten Vektorisierung mit Modellen aus Azure KI Studio

Bereitstellen eines Einbettungsmodells aus dem Azure KI Studio-Modellkatalog

Beispiel für AML-Skillnutzdaten

Beispiel für KI Studio-Vektorisierungsnutzdaten

Herstellen einer Verbindung mithilfe der Tokenauthentifizierung

Nächste Schritte

Feedback

Feedback

Zusätzliche Ressourcen