Vektordatenbanken

Eine Vektordatenbank speichert und verwaltet Daten in Form von Vektoren, die numerische Arrays von Datenpunkten sind.

Herkömmliche Datenbanken eignen sich nicht gut für die Verarbeitung der hochdimensionalen Daten, die in der Datenanalyse immer häufiger vorkommen. Vektordatenbanken dienen jedoch dazu, hochdimensionale Daten wie Text, Bilder und Audio zu verarbeiten, indem sie als Vektoren dargestellt werden. Vektordatenbanken sind nützlich für Aufgaben wie maschinelles Lernen, linguistische Datenverarbeitung und Bilderkennung, bei denen das Ziel darin besteht, Muster oder Ähnlichkeiten in großen Datasets zu identifizieren.

Dieser Artikel enthält Hintergrundinformationen zu Vektordatenbanken und erläutert konzeptionell, wie Sie ein Eventhouse als Vektordatenbank in Real-Time Intelligence in Microsoft Fabric verwenden können. Praktische Beispiele finden Sie im Lernprogramm: Verwenden eines Eventhouse als Vektordatenbank mit LLM-Einbettungen und Lernprogramm: Verwenden sie ein Eventhouse als Vektordatenbank mit SLM-Einbettungen.

Wichtige Begriffe

Die folgenden Schlüsselkonzepte werden in Vektordatenbanken verwendet:

Vektorähnlichkeit

Die Vektorähnlichkeit ist ein Maß dafür, wie unterschiedlich (oder ähnlich) zwei oder mehr Vektoren sind. Die Vektorähnlichkeitssuche ist eine Technik, die verwendet wird, um ähnliche Vektoren in einem Dataset zu finden. Sie vergleichen Vektoren mithilfe einer Entfernungsmetrik, z. B. euklidischer Entfernung oder Kosinus-Ähnlichkeit. Je näher zwei Vektoren sind, desto ähnlicher sind sie.

Einbettungen

Einbettungen stellen häufig Daten in einem Vektorformat für die Verwendung in Vektordatenbanken dar. Bei einer Einbettung handelt es sich um eine mathematische Darstellung eines Datenabschnitts, z. B. eines Worts, eines Textdokuments oder eines Bilds, das seine semantische Bedeutung erfasst. Sie erstellen Einbettungen mithilfe von Algorithmen, die die Daten analysieren und einen Satz numerischer Werte generieren, die ihre wichtigsten Features darstellen. Eine Einbettung für ein Wort kann zum Beispiel seine Bedeutung, seinen Kontext und seine Beziehung zu anderen Wörtern darstellen. Einbettungen stellen häufig Daten in einem Vektorformat für die Verwendung in Vektordatenbanken dar. Bei einer Einbettung handelt es sich um eine mathematische Darstellung eines Datenabschnitts, z. B. eines Worts, eines Textdokuments oder eines Bilds, das seine semantische Bedeutung erfasst. Sie erstellen Einbettungen mithilfe von Algorithmen, die die Daten analysieren und einen Satz numerischer Werte generieren, die ihre wichtigsten Features darstellen. Eine Einbettung für ein Wort kann zum Beispiel seine Bedeutung, seinen Kontext und seine Beziehung zu anderen Wörtern darstellen. Eventhouse unterstützt zwei Methoden zum Generieren von Einbettungen direkt in KQL:

ai_embeddings Plugin: Ruft einen externen Azure OpenAI-Endpunkt auf, um Einbettungen mithilfe großer Sprachmodelle (LLMs) zu generieren. Diese Methode erzeugt höchste Qualitätseinbettungen und eignet sich am besten für Produktions-Semantik-Suchworkloads.
slm_embeddings_fl(): Führt kleine Sprachmodelle (SLMs) lokal innerhalb der Kusto-Python-Sandbox aus und generiert Einbettungen ohne externen Endpunkt. Diese Methode erfordert keine Azure OpenAI-Ressource und verursacht keine Kosten pro Einbettung.

Weitere Informationen zu Einbettungen in Azure OpenAI finden Sie unter "Grundlegendes zu Einbettungen in Azure OpenAI Service".

Auswählen einer Einbettungsmethode

Verwenden Sie die folgende Tabelle, um die Methode auszuwählen, die am besten zu Ihrem Szenario passt:

Consideration	ai_embeddings plugin (LLM)	slm_embeddings_fl() (SLM)
Modellqualität	Höchste Qualität; verwendet Azure OpenAI-Modelle wie`text-embedding-3-large`	Gute Qualität; verwendet Open-Source-SLMs wie `harrier-v1-270m`, `jina-v2-small`und `e5-small-v2`
Externe Abhängigkeit	Erfordert eine Azure OpenAI-Ressource mit einem bereitgestellten Einbettungsmodell	Nichts; Modelle werden lokal im Python-Sandkasten ausgeführt
Kosten	Preise pro Anforderung basierend auf Azure OpenAI-Nutzung	Keine Kosten pro Embedding
Throughput	Unterliegt den Ratenlimits von Azure OpenAI; erfordert Stapelverarbeitungs- und Logik für Wiederholungsversuche	Nur durch Cluster-Computeressourcen begrenzt; skaliert natürlich mit Clustergröße
Einstellungen	Erfordert Azure OpenAI-Bereitstellung, Konfiguration der Calloutrichtlinie und Einrichtung der Identität	Erfordert, dass das Python-Plugin aktiviert ist und SLM-Artefakte in ein Lakehouse hochgeladen wurden
Maximale Kontextlänge	Hängt vom bereitgestellten Modell ab (z. B. 8.192-Token für `text-embedding-3-large`)	Bis zu 32.768 Token mit `harrier-v1-270m`, 8.192 mit `jina-v2-small` und 512 mit `e5-small-v2`
Optimal für	Produktionssemantiksuche, bei der die Einbettungsqualität oberste Priorität hat	Datenschutzrelevante Workflows, schnelle Prototyperstellung, Hochvolume-Batcheinbettung oder Szenarien ohne Azure OpenAI-Zugriff

Allgemeiner Workflow

Der allgemeine Workflow für die Verwendung einer Vektordatenbank lautet wie folgt:

Einbetten von Daten: Konvertieren von Daten in das Vektorformat mithilfe eines Einbettungsmodells.
Speichervektoren: Speichern sie die eingebetteten Vektoren in einer Vektordatenbank. Sie können die eingebetteten Daten an ein Eventhouse senden, um die Vektoren zu speichern und zu verwalten.
Einbettungsabfrage: Konvertieren Sie die Abfragedaten mithilfe desselben Einbettungsmodells in das Vektorformat, das zum Einbetten der gespeicherten Daten verwendet wird.
Abfragevektoren: Verwenden Sie die Vektorähnlichkeitssuche, um Einträge in der Datenbank zu finden, die der Abfrage ähneln.

Eventhouse als Vektordatenbank

Im Kern der Vektorgleichheitssuche ist die Möglichkeit, Vektordaten zu speichern, indizieren und abzufragen. Eventhouses bieten eine Lösung für die Behandlung und Analyse großer Datenmengen, insbesondere in Szenarien, die Echtzeitanalysen und Untersuchungen erfordern. Diese Funktion macht Eventhouse zu einer hervorragenden Wahl zum Speichern und Durchsuchen von Vektoren.

Mit den folgenden Komponenten des Eventhouse können Sie es als Vektordatenbank verwenden:

Der dynamische Datentyp, der unstrukturierte Daten wie Arrays und Eigenschaftenbehälter speichern kann. Verwenden Sie diesen Datentyp, um Vektorwerte zu speichern. Sie können den Vektorwert weiter erweitern, indem Sie Metadaten im Zusammenhang mit dem ursprünglichen Objekt als separate Spalten in der Tabelle speichern.
Der Codierungstyp Vector16 zum Speichern von Vektoren von Gleitkommazahlen in einer 16-Bit-Genauigkeit. Diese Codierung verwendet Bfloat16 anstelle der standardmäßigen 64 Bits. Verwenden Sie diese Codierung, um Vektoreinbettungen zu speichern, da sie die Speicheranforderungen um den Faktor vier reduziert und Vektorverarbeitungsfunktionen wie series_dot_product() und series_cosine_similarity()) erheblich beschleunigt.
Die series_cosine_similarity Funktion, mit der Sie Vektor-Ähnlichkeitssuchen über den in Eventhouse gespeicherten Vektoren durchführen können.

Optimieren für die Skalierung

Weitere Informationen zum Optimieren der Vektorähnlichkeitssuche finden Sie im Blog.

Führen Sie die folgenden Schritte aus, um die Leistung und die resultierenden Suchzeiten zu maximieren:

Legen Sie die Codierung der Spalte "Einbettungen" auf "Vector16", die 16-Bit-Codierung der Vektorkoeffizienten (anstelle der Standardversion von 64-Bit) fest.
Speichern Sie die Einbettungsvektor-Tabelle auf allen Clusterknoten, wobei mindestens ein Shard pro Prozessor vorhanden ist. Führen Sie die folgenden Schritte aus, um dieses Ziel zu erreichen:
1. Beschränken Sie die Anzahl der Einbettungsvektoren pro Shard, indem Sie den ShardEngineMaxRowCount der Sharding-Richtlinie ändern. Diese Einstellung verteilt Ihre Daten über alle verfügbaren Computerressourcen für schnellere Suchvorgänge.
2. Ändern Sie die RowCountUpperBoundForMerge der Zusammenführungsrichtlinie. Die Zusammenführungsrichtlinie wird benötigt, um das Zusammenfügen von Ausmaßen nach der Aufnahme zu verhindern.

Beispiel für Optimierungsschritte

Im folgenden Beispiel definieren Sie eine statische Vektortabelle zum Speichern von 1M-Vektoren. Sie definieren die Einbettungsrichtlinie als Vector16 und legen die Sharding- und Zusammenführungsrichtlinien fest, um die Tabelle für die Vektorgleichheitssuche zu optimieren. Gehen Sie in diesem Beispiel davon aus, dass der Cluster über 20 Knoten verfügt und jeder Knoten über 16 Prozessoren verfügt. Die Partitionen der Tabelle sollten höchstens 1.000.000/(20*16)=3.125 Zeilen enthalten.

Führen Sie die folgenden KQL-Befehle einzeln aus, um die leere Tabelle zu erstellen und die erforderlichen Richtlinien und Codierung festzulegen:

.create table embedding_vectors(vector_id:long, vector:dynamic)                                  //  This is a sample selection of columns, you can add more columns

.alter column embedding_vectors.vector policy encoding type = 'Vector16'                         // Store the coefficients in 16 bits instead of 64 bits accelerating calculation of dot product, suppress redundant indexing

.alter-merge table embedding_vectors policy sharding '{ "ShardEngineMaxRowCount" : 3125 }'       // Balanced data on all nodes and, multiple extents per node so the search can use all processors 

.alter-merge table embedding_vectors policy merge '{ "RowCountUpperBoundForMerge" : 3125 }'      // Suppress merging extents after ingestion

Geben Sie die Daten in die Tabelle ein, die im vorherigen Schritt erstellt und definiert wurde.

Nächste Schritte

Lernprogramm: Verwenden eines Eventhouse als Vektordatenbank mit LLM-Einbettungen

Lernprogramm: Verwenden eines Eventhouse als Vektordatenbank mit SLM-Einbettungen

Feedback

War diese Seite hilfreich?

Last updated on 2026-06-23