Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Zwei Hauptkategorien von Vektorsuchalgorithmen sind k-nächste Nachbarn (kNN) und ungefähre nächste Nachbarn (ANN, nicht zu verwechseln mit künstlichen neuronalen Netzwerken). kNN ist präzise, aber rechenintensiv und daher für große Datasets weniger geeignet. ANN hingegen bieten ein ausgewogenes Verhältnis zwischen Genauigkeit und Effizienz und eignen sich daher besser für umfangreiche Anwendungen.
Funktionsweise von kNN
- Vektorisierung: Jeder Datenpunkt im Dataset wird als Vektor in einem mehrdimensionalen Raum dargestellt.
- Abstandsberechnung: Um einen neuen Datenpunkt (Abfragepunkt) zu klassifizieren, berechnet der Algorithmus den Abstand zwischen dem Abfragepunkt und allen anderen Punkten im Dataset mithilfe einer Abstandsfunktion.
- Suche nach Nachbarn: Der Algorithmus identifiziert die k nächstgelegenen Datenpunkte (Nachbarn) zum Abfragepunkt auf der Grundlage der berechneten Abstände. Der Wert von k (die Anzahl der Nachbarn) ist entscheidend. Ein kleines k kann für Rauschen empfindlich sein, während ein großes k Details glätten kann.
- Vorhersagen machen
- Klassifizierung: Bei Klassifizierungsaufgaben ordnet kNN dem Abfragepunkt die Bezeichnung der Klasse zu, die unter den k Nachbarn am häufigsten vorkommt. Im Wesentlichen handelt es sich um eine „Mehrheitsabstimmung.“
- Regression: Bei Regressionsaufgaben sagt kNN den Wert für den Abfragepunkt als den Durchschnitt (oder manchmal gewichteten Durchschnitt) der Werte der k Nachbarn voraus.
Funktionsweise von ANN
- Vektorisierung: Jeder Datenpunkt im Dataset wird als Vektor in einem mehrdimensionalen Raum dargestellt.
- Indizierung und Datenstrukturen: ANN-Algorithmen verwenden fortschrittliche Datenstrukturen (z. B. KD-Bäume, ortsabhängiges Hashing oder graphenbasierte Methoden), um die Datenpunkte zu indizieren und so eine schnellere Suche zu ermöglichen.
- Abstandsberechnung: Anstatt die genaue Entfernung zu jedem Punkt zu berechnen, verwenden ANN-Algorithmen Heuristiken, um schnell Regionen des Raums zu identifizieren, die wahrscheinlich die nächsten Nachbarn enthalten.
- Suche nach Nachbarn: Der Algorithmus identifiziert eine Gruppe von Datenpunkten, die wahrscheinlich in der Nähe des Abfragepunkts liegen. Diese Nachbarn sind nicht garantiert die exakt nächstgelegenen Punkte, aber sie sind für praktische Zwecke nahe genug.
- Vorhersagen treffen
- Klassifizierung: Bei Klassifizierungsaufgaben weist ANN dem Abfragepunkt die Bezeichnung der Klasse zu, die unter den identifizierten Nachbarn am häufigsten vorkommt, ähnlich wie bei kNN.
- Regression: Bei Regressionsaufgaben sagt ANN den Wert für den Abfragepunkt als den Durchschnitt (oder gewichteten Durchschnitt) der Werte der identifizierten Nachbarn voraus.