Grundlegendes zu Einbettungen in Azure OpenAI Service

Eine Einbettung ist ein spezielles Format der Datendarstellung, das problemlos von Machine Learning-Modellen und -Algorithmen genutzt werden kann. Die Einbettung ist eine verdichtete Informationsdarstellung der semantischen Bedeutung eines Textteils. Jede Einbettung ist ein Vektor aus Gleitkommazahlen. Der Abstand zwischen zwei Einbettungen im Vektorraum korreliert mit der semantischen Nähe zwischen zwei Eingaben im Originalformat. Wenn beispielsweise zwei Texte semantisch sehr ähnlich sind, sollten auch ihre Vektordarstellungen nahe zueinander liegen. Einbetten der PowerVektor-Ähnlichkeitssuche in Azure-Datenbanken wie Azure Cosmos DB für MongoDB vCore-, Azure SQL-Datenbank oder Azure-Datenbank für PostgreSQL – Flexible Server.

Einbetten von Modellen

Die unterschiedlichen Azure OpenAI-Einbettungsmodelle wurden für die Erledigung einer bestimmten Aufgabe erstellt:

  • Ähnlichkeitseinbettungen sind gut für die Erfassung der semantischen Ähnlichkeit zwischen zwei oder mehr Textteilen geeignet.
  • Mit Hilfe von Einbettungen für die Textsuche lässt sich feststellen, ob lange Dokumente für eine kurze Anfrage relevant sind.
  • Codesucheinbettungen sind nützlich, um Codeschnipsel und Suchabfragen in natürlicher Sprache einzubetten.

Einbettungen vereinfachen maschinelles Lernen bei umfangreichen Eingaben, die Wörter darstellen, indem die semantischen Ähnlichkeiten in einem Vektorraum erfasst werden. Damit können Sie Einbettungen verwenden, um zu bestimmen, ob zwei Textblöcke semantisch miteinander verwandt oder ähnlich sind, und einen Ähnlichkeitsscore bereitstellen.

Kosinusähnlichkeit

Azure OpenAI-Einbettungen nutzen Kosinusähnlichkeit, um die Ähnlichkeit zwischen Dokumenten und einer Abfrage zu berechnen.

Aus mathematischer Sicht wird bei der Kosinusähnlichkeit der Kosinus des Winkels zwischen zwei Vektoren gemessen, die in einem mehrdimensionalen Raum projiziert werden. Diese Messung vorteilhaft, denn wenn zwei Dokumente aufgrund ihrer Größe eine hohe euklidische Entfernung aufweisen, könnten sie trotzdem einen kleineren Winkel und somit eine höhere Kosinusähnlichkeit haben. Weitere Informationen zu Kosinusähnlichkeitsgleichungen finden Sie in diesem Artikel zur Kosinusähnlichkeit.

Eine alternative Methode zum Identifizieren ähnlicher Dokumente besteht darin, die Anzahl identischer Wörter zwischen Dokumenten zu zählen. Dieser Ansatz wird nicht skaliert, sodass größere Dokumente sehr wahrscheinlich zu einer größeren Anzahl erkannter identischer Wörter führen, selbst wenn die Dokumente unterschiedliche Themen enthalten. Aus diesem Grund kann die Kosinusähnlichkeit eine effektivere Alternative darstellen.

Nächste Schritte