Freigeben über


Implementieren der integrierten Vektorisierung mit Modellen aus Azure KI Studio

Wichtig

Dieses Feature befindet sich in der Public Preview-Phase und unterliegt zusätzlichen Nutzungsbedingungen. Die REST-API „2024-05-01-Preview“ unterstützt dieses Feature.

In diesem Artikel erfahren Sie, wie Sie auf die Einbettungsmodelle im Azure KI Studio-Modellkatalog für Vektorkonvertierungen während der Indizierung und in Abfragen in Azure KI-Suche zugreifen.

Der Bereitstellungsworkflow umfasst Schritte für die Modellimplementierung. Der Modellkatalog enthält Einbettungsmodelle von Azure OpenAI, Cohere, Facebook und OpenAI. Die Bereitstellung eines Modells wird entsprechend der Abrechnungsstruktur des jeweiligen Anbieters in Rechnung gestellt.

Nachdem das Modell bereitgestellt wurde, können Sie es für die integrierte Vektorisierung während der Indizierung oder mit der KI Studio-Vektorisierung für Abfragen verwenden.

Bereitstellen eines Einbettungsmodells aus dem Azure KI Studio-Modellkatalog

  1. Öffnen Sie den Azure KI Studio-Modellkatalog.

  2. Wenden Sie einen Filter an, um nur die Einbettungsmodelle anzuzeigen. Wählen Sie unter Rückschlussaufgaben die Option Einbettungen aus:

    Screenshot: Filtern nach Einbettungsmodellen auf der Seite des Azure KI Studio-Modellkatalogs

  3. Wählen Sie das Modell aus, mit dem Sie Ihre Inhalte vektorisieren möchten. Wählen Sie dann Bereitstellen und eine Bereitstellungsoption aus.

    Screenshot: Bereitstellen eines Endpunkts über den Azure KI Studio-Modellkatalog

  4. Geben Sie die erforderlichen Details ein. Wählen Sie ein KI-Projekt aus, oder erstellen Sie ein neues KI-Projekt, und wählen Sie dann Bereitstellenaus. Die Bereitstellungsdetails variieren je nach ausgewähltem Modell.

  5. Warten Sie, bis die Bereitstellung des Modells abgeschlossen ist, indem Sie den Bereitstellungsstatus überwachen. Der Status sollte sich von „Wird bereitgestellt“ in „Wird aktualisiert“ und schließlich in „Erfolgreich“ ändern. Möglicherweise müssen Sie nach ein paar Minuten Aktualisieren auswählen, damit der Status aktualisiert wird.

  6. Kopieren Sie die Werte in den Feldern „URL“, Primärschlüssel“ und „Modell-ID“ zur späteren Verwendung. Sie benötigen diese Werte für die Vektorisierungsdefinition in einem Suchindex und für das Skillset, das die Modellendpunkte während der Indizierung aufruft.

    Optional können Sie Ihren Endpunkt so ändern, dass die Tokenauthentifizierung anstelle der Schlüsselauthentifizierung verwendet wird. Wenn Sie die Tokenauthentifizierung aktivieren, müssen Sie nur die URL und die Modell-ID kopieren. Notieren Sie auch die Region, in der das Modell bereitgestellt wird.

    Screenshot: Bereitgestellter Endpunkt in KI Studio mit Hervorhebung der Felder, die zur späteren Verwendung kopiert und gespeichert werden müssen

  7. Sie können jetzt einen Suchindex und einen Indexer zum Verwenden des bereitgestellten Modells konfigurieren.

Beispiel für AML-Skillnutzdaten

Wenn Sie Einbettungsmodelle aus dem Azure KI Studio-Modellkatalog bereitstellen, stellen Sie für Indizierungsworkloads über den AML-Skill in Azure KI-Suche eine Verbindung mit ihnen her.

In diesem Abschnitt werden die AML-Skilldefinition und Indexzuordnungen beschrieben. Er enthält Beispielnutzdaten, die bereits für die Verwendung mit den entsprechenden bereitgestellten Endpunkten konfiguriert sind. Weitere technische Details zur Funktionsweise dieser Nutzdaten finden Sie unter Skillkontext und Eingabeanmerkungssprache.

Diese AML-Skillnutzdaten funktionieren mit den folgenden Modellen aus KI Studio:

  • OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32
  • OpenAI-CLIP-Image-Text-Embeddings-ViT-Large-Patch14-336

Es wird davon ausgegangen, dass Sie Ihre Inhalte mit dem Textaufteilungsskill segmentieren und sich der zu vektorisierende Text im Pfad /document/pages/* befindet. Wenn Ihr Text aus einem anderen Pfad stammt, aktualisieren Sie alle Verweise auf den Pfad /document/pages/* entsprechend.

Der URI und der Schlüssel werden generiert, wenn Sie das Modell aus dem Katalog bereitstellen. Weitere Informationen zu diesen Werten finden Sie unter So stellen Sie große Sprachmodelle mit Azure KI Studio bereit.

{
  "@odata.type": "#Microsoft.Skills.Custom.AmlSkill",
  "context": "/document/pages/*",
  "uri": "<YOUR_MODEL_URL_HERE>",
  "key": "<YOUR_MODEL_KEY_HERE>",
  "inputs": [
    {
      "name": "input_data",
      "sourceContext": "/document/pages/*",
      "inputs": [
        {
          "name": "columns",
          "source": "=['image', 'text']"
        },
        {
          "name": "index",
          "source": "=[0]"
        },
        {
          "name": "data",
          "source": "=[['', $(/document/pages/*)]]"
        }
      ]
    }
  ],
  "outputs": [
    {
      "name": "text_features"
    }
  ]
}

Beispiel für KI Studio-Vektorisierungsnutzdaten

Die KI Studio-Vektorisierung ist im Gegensatz zum AML-Skill nur für die Verwendung mit den Einbettungsmodellen konzipiert, die über den KI Studio-Modellkatalog bereitgestellt werden können. Der Hauptunterschied besteht darin, dass Sie sich keine Gedanken über die Anforderungs- und Antwortnutzdaten machen müssen. Sie müssen jedoch den modelName angeben, der der „Modell-ID“ entspricht, die Sie nach der Bereitstellung des Modells in KI Studio kopiert haben.

Die folgenden Beispielnutzdaten zeigen, wie Sie die Vektorisierung in Ihrer Indexdefinition anhand der aus KI Studio kopierten Eigenschaften konfigurieren würden.

Bei Cohere-Modellen sollten Sie den Pfad /v1/embed NICHT wie beim Skill am Ende Ihrer URL hinzufügen.

"vectorizers": [
    {
        "name": "<YOUR_VECTORIZER_NAME_HERE>",
        "kind": "aml",
        "amlParameters": {
            "uri": "<YOUR_URL_HERE>",
            "key": "<YOUR_PRIMARY_KEY_HERE>",
            "modelName": "<YOUR_MODEL_ID_HERE>"
        },
    }
]

Herstellen einer Verbindung mithilfe der Tokenauthentifizierung

Wenn Sie die schlüsselbasierte Authentifizierung nicht verwenden können, können Sie die Verbindung mit dem AML-Skill und der KI Studio-Vektorisierung stattdessen für die Tokenauthentifizierung über die rollenbasierte Zugriffssteuerung (Role-Based Access Control, RBAC) in Azure konfigurieren. Der Suchdienst muss über eine systemseitig oder benutzerseitig zugewiesene verwaltete Identität verfügen, und der Identität müssen Berechtigungen vom Typ „Besitzer“ oder „Mitwirkender“ für Ihren AML-Projektarbeitsbereich zugewiesen sein. Anschließend können Sie das Schlüsselfeld aus Ihrer Skill- und Vektorisierungsdefinition entfernen und durch das Feld „resourceId“ ersetzen. Wenn sich Ihr AML-Projekt und der Suchdienst in verschiedenen Regionen befinden, müssen Sie auch das Feld „region“ bereitstellen.

"uri": "<YOUR_URL_HERE>",
"resourceId": "subscriptions/<YOUR_SUBSCRIPTION_ID_HERE>/resourceGroups/<YOUR_RESOURCE_GROUP_NAME_HERE>/providers/Microsoft.MachineLearningServices/workspaces/<YOUR_AML_WORKSPACE_NAME_HERE>/onlineendpoints/<YOUR_AML_ENDPOINT_NAME_HERE>",
"region": "westus", // Only need if AML project lives in different region from search service

Nächste Schritte