Adatok kereshetővé tétele

Befejeződött

Ha olyan copilotot szeretne létrehozni, amely a saját adatait használja a pontos válaszok létrehozásához, hatékonyan kell keresnie az adatokat. Ha az Azure AI Studióval hoz létre egy copilotot, az Azure AI Search integrációjával lekérheti a csevegési folyamat megfelelő környezetét.

Az Azure AI Search egy lekérhető lekérő , amelyet a parancssori folyamattal rendelkező nyelvi modellalkalmazások létrehozásakor is használhat. Az Azure AI Search lehetővé teszi, hogy saját adatokat hozzon létre, indexelje az adatokat, és lekérdezze az indexet a szükséges információk lekéréséhez.

A lekérdezett indexet ábrázoló diagram a földelési adatok lekéréséhez.

Vektorindex használata

Bár a szöveges indexek növelik a keresési hatékonyságot, általában jobb adatlekérési megoldást érhet el egy vektoralapú index használatával, amely beágyazásokat tartalmaz, amelyek az adatforrásban lévő szöveges jogkivonatokat jelölik.

A beágyazás az adatmegjelenítés speciális formátuma, amellyel a keresőmotor könnyen megtalálhatja a releváns információkat. Pontosabban a beágyazás a lebegőpontos számok vektora.

Tegyük fel például, hogy két dokumentuma van a következő tartalommal:

  • "A gyerekek vidáman játszottak a parkban."
  • "A gyerekek boldogan futottak a játszótéren."

Ez a két dokumentum szemantikailag összefüggő szövegeket tartalmaz, még akkor is, ha különböző szavakat használnak. Ha vektoros beágyazásokat hoz létre a dokumentumokban lévő szöveghez, a szövegben lévő szavak közötti kapcsolat matematikailag kiszámítható.

Képzelje el a dokumentumból kinyert és vektorként ábrázolt kulcsszavakat egy többdimenziós térben:

Vektorbeágyazások diagramja.

A vektorok közötti távolság úgy számítható ki, hogy megméri a két vektor közötti szög koszinuszát, más néven a koszinusz-hasonlóságot. Más szóval a koszinusz hasonlósága kiszámítja a dokumentumok és a lekérdezések szemantikai hasonlóságát.

A szavak és jelentésük vektorokkal való ábrázolásával akkor is kinyerheti a releváns kontextust az adatforrásból, ha az adatokat különböző formátumban (szöveg vagy kép) és nyelveken tárolják.

Ha vektoros keresést szeretne használni az adatok kereséséhez, beágyazásokat kell létrehoznia a keresési index létrehozásakor. Ha beágyazásokat szeretne létrehozni a keresési indexhez, használhatja az Azure AI Studióban elérhető Azure OpenAI-beágyazási modellt.

Beágyazásokat tartalmazó vektorindexet ábrázoló diagram.

Tipp.

További információ a beágyazásokról az Azure OpenAI szolgáltatásban.

Keresési index létrehozása

Az Azure AI Searchben a keresési index leírja, hogyan van rendszerezve a tartalom, hogy kereshető legyen. Képzelj el egy sok könyvet tartalmazó könyvtárat. Szeretné, hogy képes legyen keresni a könyvtárban, és lekérni a megfelelő könyvet könnyen és hatékonyan. Ha kereshetővé szeretné tenni a könyvtárat, hozzon létre egy katalógust, amely tartalmazza a könyvekre vonatkozó releváns adatokat, hogy a könyvek könnyen megtalálhatók legyenek. A könyvtár katalógusa keresési indexként szolgál.

Bár az indexek létrehozásának különböző megközelítései vannak, az Azure AI Search integrálása az Azure AI Studióban megkönnyíti a nyelvi modellekhez megfelelő index létrehozását. Hozzáadhatja az adatokat az Azure AI Studióhoz, amely után az Azure AI Search használatával létrehozhat egy indexet az Azure AI Studióban egy beágyazási modell használatával. Az indexeszközt az Azure AI Search tárolja, és az Azure AI Studio lekérdezi, amikor csevegési folyamatban használják.

Képernyőkép egy index létrehozásáról az Azure AI Studióban.

A keresési index konfigurálása a használt adatoktól és a nyelvi modell által használni kívánt környezettől függ. A kulcsszókeresés például lehetővé teszi a keresési lekérdezésnek megfelelő információk lekérését. A szemantikai keresés már egy lépéssel tovább tart, ha a pontos kulcsszó helyett a lekérdezés jelentésének megfelelő információkat kérdez le szemantikai modellek használatával. Jelenleg a legfejlettebb módszer a vektorkeresés, amely beágyazásokat hoz létre az adatok megjelenítéséhez.

Tipp.

További információ a vektorkeresésről.

Keresés egy indexben

Az információk többféleképpen is lekérdezhetők egy indexben:

  • Kulcsszókeresés: A megadott kulcsszavak vagy kifejezések alapján azonosítja a releváns dokumentumokat vagy részeket.
  • Szemantikai keresés: Dokumentumok vagy szakaszok lekérése a lekérdezés jelentésének megértésével és szemantikailag kapcsolódó tartalommal való egyeztetésével, nem pedig csak a pontos kulcsszóegyezésekre támaszkodva.
  • Vektorkeresés: A szöveg (vektorok) matematikai ábrázolásával hasonló dokumentumokat vagy részeket keres szemantikai jelentésük vagy kontextusuk alapján.
  • Hibrid keresés: Kombinálja az összes többi keresési technikát. A lekérdezések párhuzamosan lesznek végrehajtva, és egységes eredményhalmazban jelennek meg.

Amikor keresési indexet hoz létre az Azure AI Studióban, egy olyan index konfigurálásához vezet, amely a nyelvi modellel kombinálva a legmegfelelőbb. Ha a keresési eredményeket egy generatív AI-alkalmazásban használja, a hibrid keresés a legpontosabb eredményt adja.

A hibrid keresés a kulcsszó (és a teljes szöveg) és a vektoros keresés kombinációja, amelyhez a szemantikai rangsor opcionálisan hozzáadódik. Ha hibrid kereséssel kompatibilis indexet hoz létre, a lekért információk pontosak, ha pontos egyezések állnak rendelkezésre (kulcsszavak használatával), és akkor is relevánsak, ha csak elméletileg hasonló információk találhatók (vektoros kereséssel).

Tipp.

További információ a hibrid keresésről.