Megosztás a következőn keresztül:


Vektortárolók az Azure Database for PostgreSQL-ben

A vektortárolókat számos tartományban és helyzetben használják az elemzési és generatív AI-ben, beleértve a természetes nyelvi feldolgozást, a videó- és képfelismerést, a javaslati rendszereket és a keresést.

Mi az a vektortároló?

A vektortárolók (más néven vektoradatbázisok) olyan adatbázisok, amelyek vektoros beágyazásokat tárolnak és kezelnek. A vektoros beágyazások az adatok matematikai ábrázolása nagy dimenziójú térben.

Ebben a térben minden dimenzió az adatok egyik funkciójának felel meg. Több tízezer dimenzió használható kifinomult adatok megjelenítésére. A vektor pozíciója ebben a térben annak jellemzőit jelöli. Szavak, kifejezések, teljes dokumentumok, képek, hang és más típusú adatok mind vektorizálhatók.

Hogyan működik a vektortároló?

A vektortárakban vektorkeresési algoritmusokkal indexelheti és lekérdezheti a beágyazásokat. A jól ismert vektorkeresési algoritmusok közé tartozik a Lemez hozzávetőleges legközelebbi szomszédja (DiskANN), a hierarchikus navigálható kis világ (HNSW) és az invertált fájl lapos tömörítéssel (IVFFlat).

A vektoros keresés egy olyan módszer, amely segít megtalálni a hasonló elemeket az adattulajdonságuk alapján, nem pedig egy tulajdonságmező pontos egyezései alapján. Ez a technika olyan alkalmazásokban hasznos, mint a hasonló szövegek keresése, a kapcsolódó képek keresése, javaslatok készítése vagy akár a rendellenességek észlelése.

A vektoros kereséssel lekérdezhetők az adatok vektoros beágyazásai , amelyeket egy gépi tanulási modellel hozott létre egy beágyazási API-val. A beágyazási API például az Azure OpenAI beágyazások és a Hugging Face on Azure.

A vektorkeresés az adatvektorok és a lekérdezésvektor közötti távolságot méri. A lekérdezésvektorhoz legközelebb eső adatvektorok azok, amelyek szemantikailag leginkább hasonlítanak.

Ha az Azure Database for PostgreSQL-t vektortárolóként használja, az eredeti adatok mellett tárolhatja, indexelheti és lekérdezésbeágyazhatja őket. Ez a módszer kiküszöböli a különálló, tiszta vektoradatbázisban lévő adatok replikálásának többletköltségét.

Ez az architektúra a vektoros beágyazásokat és az eredeti adatokat is együtt tartja. A beágyazások és az adatok együttes megőrzése jobban megkönnyíti a többmodális adatműveleteket. Emellett nagyobb adatkonzisztenciát, skálázást és teljesítményt tesz lehetővé.