Implementieren der integrierten Vektorisierung mit Modellen aus Azure KI Studio
Wichtig
Dieses Feature befindet sich in der Public Preview-Phase und unterliegt zusätzlichen Nutzungsbedingungen. Die REST-API „2024-05-01-Preview“ unterstützt dieses Feature.
In diesem Artikel erfahren Sie, wie Sie auf die Einbettungsmodelle im Azure KI Studio-Modellkatalog für Vektorkonvertierungen während der Indizierung und in Abfragen in Azure KI-Suche zugreifen.
Der Bereitstellungsworkflow umfasst Schritte für die Modellimplementierung. Der Modellkatalog enthält Einbettungsmodelle von Azure OpenAI, Cohere, Facebook und OpenAI. Die Bereitstellung eines Modells wird entsprechend der Abrechnungsstruktur des jeweiligen Anbieters in Rechnung gestellt.
Nachdem das Modell bereitgestellt wurde, können Sie es für die integrierte Vektorisierung während der Indizierung oder mit der KI Studio-Vektorisierung für Abfragen verwenden.
Bereitstellen eines Einbettungsmodells aus dem Azure KI Studio-Modellkatalog
Öffnen Sie den Azure KI Studio-Modellkatalog.
Wenden Sie einen Filter an, um nur die Einbettungsmodelle anzuzeigen. Wählen Sie unter Rückschlussaufgaben die Option Einbettungen aus:
Wählen Sie das Modell aus, mit dem Sie Ihre Inhalte vektorisieren möchten. Wählen Sie dann Bereitstellen und eine Bereitstellungsoption aus.
Geben Sie die erforderlichen Details ein. Wählen Sie ein KI-Projekt aus, oder erstellen Sie ein neues KI-Projekt, und wählen Sie dann Bereitstellenaus. Die Bereitstellungsdetails variieren je nach ausgewähltem Modell.
Warten Sie, bis die Bereitstellung des Modells abgeschlossen ist, indem Sie den Bereitstellungsstatus überwachen. Der Status sollte sich von „Wird bereitgestellt“ in „Wird aktualisiert“ und schließlich in „Erfolgreich“ ändern. Möglicherweise müssen Sie nach ein paar Minuten Aktualisieren auswählen, damit der Status aktualisiert wird.
Kopieren Sie die Werte in den Feldern „URL“, Primärschlüssel“ und „Modell-ID“ zur späteren Verwendung. Sie benötigen diese Werte für die Vektorisierungsdefinition in einem Suchindex und für das Skillset, das die Modellendpunkte während der Indizierung aufruft.
Optional können Sie Ihren Endpunkt so ändern, dass die Tokenauthentifizierung anstelle der Schlüsselauthentifizierung verwendet wird. Wenn Sie die Tokenauthentifizierung aktivieren, müssen Sie nur die URL und die Modell-ID kopieren. Notieren Sie auch die Region, in der das Modell bereitgestellt wird.
Sie können jetzt einen Suchindex und einen Indexer zum Verwenden des bereitgestellten Modells konfigurieren.
Informationen dazu, wie Sie das Modell während der Indizierung verwenden, finden Sie in den Schritten zum Aktivieren der integrierten Vektorisierung. Achten Sie darauf, den Azure Machine Learning (AML)-Skill und nicht den AzureOpenAIEmbedding-Skill zu verwenden. Im nächsten Abschnitt wird die Skillkonfiguration beschrieben.
Informationen dazu, wie Sie das Modell zur Abfragezeit als Vektorisierung verwenden, finden Sie unter Konfigurieren einer Vektorisierung. Für diesen Schritt müssen Sie die Vektorisierung aus dem Azure KI Studio-Modellkatalog verwenden.
Beispiel für AML-Skillnutzdaten
Wenn Sie Einbettungsmodelle aus dem Azure KI Studio-Modellkatalog bereitstellen, stellen Sie für Indizierungsworkloads über den AML-Skill in Azure KI-Suche eine Verbindung mit ihnen her.
In diesem Abschnitt werden die AML-Skilldefinition und Indexzuordnungen beschrieben. Er enthält Beispielnutzdaten, die bereits für die Verwendung mit den entsprechenden bereitgestellten Endpunkten konfiguriert sind. Weitere technische Details zur Funktionsweise dieser Nutzdaten finden Sie unter Skillkontext und Eingabeanmerkungssprache.
Diese AML-Skillnutzdaten funktionieren mit den folgenden Modellen aus KI Studio:
- OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32
- OpenAI-CLIP-Image-Text-Embeddings-ViT-Large-Patch14-336
Es wird davon ausgegangen, dass Sie Ihre Inhalte mit dem Textaufteilungsskill segmentieren und sich der zu vektorisierende Text im Pfad /document/pages/*
befindet. Wenn Ihr Text aus einem anderen Pfad stammt, aktualisieren Sie alle Verweise auf den Pfad /document/pages/*
entsprechend.
Der URI und der Schlüssel werden generiert, wenn Sie das Modell aus dem Katalog bereitstellen. Weitere Informationen zu diesen Werten finden Sie unter So stellen Sie große Sprachmodelle mit Azure KI Studio bereit.
{
"@odata.type": "#Microsoft.Skills.Custom.AmlSkill",
"context": "/document/pages/*",
"uri": "<YOUR_MODEL_URL_HERE>",
"key": "<YOUR_MODEL_KEY_HERE>",
"inputs": [
{
"name": "input_data",
"sourceContext": "/document/pages/*",
"inputs": [
{
"name": "columns",
"source": "=['image', 'text']"
},
{
"name": "index",
"source": "=[0]"
},
{
"name": "data",
"source": "=[['', $(/document/pages/*)]]"
}
]
}
],
"outputs": [
{
"name": "text_features"
}
]
}
Beispiel für KI Studio-Vektorisierungsnutzdaten
Die KI Studio-Vektorisierung ist im Gegensatz zum AML-Skill nur für die Verwendung mit den Einbettungsmodellen konzipiert, die über den KI Studio-Modellkatalog bereitgestellt werden können. Der Hauptunterschied besteht darin, dass Sie sich keine Gedanken über die Anforderungs- und Antwortnutzdaten machen müssen. Sie müssen jedoch den modelName
angeben, der der „Modell-ID“ entspricht, die Sie nach der Bereitstellung des Modells in KI Studio kopiert haben.
Die folgenden Beispielnutzdaten zeigen, wie Sie die Vektorisierung in Ihrer Indexdefinition anhand der aus KI Studio kopierten Eigenschaften konfigurieren würden.
Bei Cohere-Modellen sollten Sie den Pfad /v1/embed
NICHT wie beim Skill am Ende Ihrer URL hinzufügen.
"vectorizers": [
{
"name": "<YOUR_VECTORIZER_NAME_HERE>",
"kind": "aml",
"amlParameters": {
"uri": "<YOUR_URL_HERE>",
"key": "<YOUR_PRIMARY_KEY_HERE>",
"modelName": "<YOUR_MODEL_ID_HERE>"
},
}
]
Herstellen einer Verbindung mithilfe der Tokenauthentifizierung
Wenn Sie die schlüsselbasierte Authentifizierung nicht verwenden können, können Sie die Verbindung mit dem AML-Skill und der KI Studio-Vektorisierung stattdessen für die Tokenauthentifizierung über die rollenbasierte Zugriffssteuerung (Role-Based Access Control, RBAC) in Azure konfigurieren. Der Suchdienst muss über eine systemseitig oder benutzerseitig zugewiesene verwaltete Identität verfügen, und der Identität müssen Berechtigungen vom Typ „Besitzer“ oder „Mitwirkender“ für Ihren AML-Projektarbeitsbereich zugewiesen sein. Anschließend können Sie das Schlüsselfeld aus Ihrer Skill- und Vektorisierungsdefinition entfernen und durch das Feld „resourceId“ ersetzen. Wenn sich Ihr AML-Projekt und der Suchdienst in verschiedenen Regionen befinden, müssen Sie auch das Feld „region“ bereitstellen.
"uri": "<YOUR_URL_HERE>",
"resourceId": "subscriptions/<YOUR_SUBSCRIPTION_ID_HERE>/resourceGroups/<YOUR_RESOURCE_GROUP_NAME_HERE>/providers/Microsoft.MachineLearningServices/workspaces/<YOUR_AML_WORKSPACE_NAME_HERE>/onlineendpoints/<YOUR_AML_ENDPOINT_NAME_HERE>",
"region": "westus", // Only need if AML project lives in different region from search service