Generieren von Einbettungen mit Azure OpenAI

Eine Einbettung ist ein spezielles Format der Datendarstellung, das problemlos von Machine Learning-Modellen und -Algorithmen genutzt werden kann. Die Einbettung ist eine verdichtete Informationsdarstellung der semantischen Bedeutung eines Textteils. Jede Einbettung ist ein Vektor aus Gleitkommazahlen. Der Abstand zwischen zwei Einbettungen im Vektorraum korreliert mit der semantischen Nähe zwischen zwei Eingaben im Originalformat. Wenn beispielsweise zwei Texte semantisch sehr ähnlich sind, sollten auch ihre Vektordarstellungen nahe zueinander liegen.

Abrufen von Einbettungen

Zum Abrufen eines Einbettungsvektors für einen Text erstellen Sie eine Anforderung an den Einbettungsendpunkt, wie in den folgenden Codeschnipseln gezeigt:

curl https://YOUR_RESOURCE_NAME.openai.azure.com/openai/deployments/YOUR_DEPLOYMENT_NAME/embeddings?api-version=2022-12-01\
  -H 'Content-Type: application/json' \
  -H 'api-key: YOUR_API_KEY' \
  -d '{"input": "Sample Document goes here"}'

Empfehlungen

Verifizieren, dass Eingaben die maximale Länge nicht überschreiten

Die maximale Länge der Eingabetexte für unsere Einbettungsmodelle beträgt 2048 Token (dies entspricht 2–3 Seiten Text). Vergewissern Sie sich, dass Ihre Eingaben diesen Maximalwert nicht überschreiten, bevor Sie eine Anforderung erstellen.

Auswählen des besten Modells für eine Aufgabe

Sie können Einbettungen für die Suchmodelle auf zwei Arten abrufen. Das Modell <search_model>-doc wird für längere Texte verwendet (für Suchvorgänge), das Modell <search_model>-query ist für kürzere Texte konzipiert – in der Regel Abfragen oder Klassenbezeichnungen in der Zero-Shot-Klassifizierung. Weitere Informationen zu allen Einbettungsmodellen finden Sie in unserem Leitfaden zu Modellen.

Ersetzen von Zeilenvorschubzeichen durch einzelne Leerzeichen

Sofern Sie keinen Code einbetten, empfiehlt es sich, ein Zeilenvorschubzeichen (\n) in Eingaben durch ein einzelnes Leerzeichen zu ersetzen, da wir festgestellt haben, dass die Ergebnisse schlechter ausfallen, wenn Zeilenvorschubzeichen vorhanden sind.

Einschränkungen und Risiken

Unsere Einbettungsmodelle können in bestimmten Fällen unzuverlässig sein oder soziale Risiken bergen und bei nicht vorhandenen Maßnahmen zur Risikominderung Schäden verursachen. Lesen Sie unsere Artikel und Beiträge zu verantwortungsvoller KI, um zu erfahren, wie Sie diese Modelle verantwortungsbewusst einsetzen.

Nächste Schritte