Megjegyzés
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhat bejelentkezni vagy módosítani a címtárat.
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhatja módosítani a címtárat.
A Generatív AI az AI-algoritmusok egy olyan osztályára utal, amely képes tanulni a meglévő multimédiás tartalmakból, és új tartalmakat létrehozni. A létrehozott tartalom testre szabható olyan technikákkal, mint a parancssorok és a finomhangolás. A Generatív AI-algoritmusok konkrét gépi tanulási modelleket alkalmaznak:
- Transzformátorok és ismétlődő neurális hálózatok (RNN-ek) szöveggeneráláshoz
- Generatív ellenlábas hálózatok (GAN-ok) és variációs autoenkóderek (VAE-k) képgeneráláshoz
A Generatív AI-t a kép- és zeneszintézisben és az egészségügyben, valamint olyan gyakori feladatokban használják, mint a szöveg automatikus kiegészítése, a szövegösszesítés és a fordítás. A generatív AI-technikák lehetővé teszik az olyan adatok funkcióit, mint a fürtözés és szegmentálás, a szemantikai keresés és javaslatok, a témakörmodellezés, a kérdések megválaszolása és az anomáliadetektálás.
Az alábbi videó bemutatja a generatív AI használatát az Azure Database for PostgreSQL-hez és a pgvector bővítményhez, amely segíthet megérteni a cikkben szereplő fogalmakat.
OpenAI
Az OpenAI egy kutatószervezet és technológiai vállalat, amely az MI és a gépi tanulás területén végzett úttörő munkájáról ismert. Küldetése annak biztosítása, hogy a mesterséges általános intelligencia (AGI), amely magas autonóm mi-rendszerekre hivatkozik, amelyek képesek felülmúlni az embereket a gazdaságilag legértékesebb munkában, az egész emberiség számára előnyös. Az OpenAI olyan korszerű generatív modelleket hozott piacra, mint a GPT-3, a GPT-3.5 és a GPT-4.
Az Azure OpenAI egy Microsoft-szolgáltatásajánlat, amellyel generatív AI-alkalmazásokat hozhat létre az Azure használatával. Az Azure OpenAI speciális nyelvi AI-t biztosít az ügyfeleknek az OpenAI GPT-4, GPT-3, Codex, DALL-E és Whisper modellekkel, az Azure biztonsági és vállalati képességeivel. Az Azure OpenAI közösen fejleszti az API-kat az OpenAI-val a kompatibilitás és az egyik rendszerből a másikba való zökkenőmentes átmenet biztosítása érdekében.
Az Azure OpenAI-val az ügyfelek a Microsoft Azure biztonsági képességeit kapják, miközben ugyanazokat a modelleket futtatják, mint az OpenAI. Az Azure OpenAI privát hálózatkezelést, regionális rendelkezésre állást és felelős AI-tartalomszűrést kínál.
További információ az Azure OpenAI-ról.
Nagy nyelvi modell
A nagy nyelvi modell (LLM) egy olyan AI-modell, amely nagy mennyiségű szöveges adatra van betanítve az emberi nyelv megértéséhez és létrehozásához. Az LLM-ek általában mélytanulási architektúrákon, például átalakítókon alapulnak. Ismertek arról, hogy képesek a természetes nyelv megértési és létrehozási feladatok széles körének elvégzésére. Az Azure OpenAI szolgáltatás és az OpenAI ChatGPT az LLM-ajánlatok példái.
Az LLM fő jellemzői és képességei a következők:
- Skálázás: Az LLM-ek mérete óriási, az architektúrájuk által használt paraméterek száma szempontjából. Az olyan modellek, mint a GPT-3, több száz milliótól több trillió paraméterig tartalmaznak, ami lehetővé teszi számukra, hogy összetett mintákat rögzítsenek nyelven.
- Előtanítás: Az LLM-eket előtanításnak vetik alá az internetről származó nagy mennyiségű szöveges adaton. Ez az előtanítás lehetővé teszi számukra a nyelvtan, a szintaxis, a szemantika és a nyelv és a világ széles körű ismereteinek elsajátítását.
- Finomhangolás: Az előzetes betanítás után az LLM-eket finomhangolhatja a kisebb, feladatspecifikus adathalmazokkal rendelkező tevékenységekre vagy tartományokra. Ez a finomhangolási folyamat lehetővé teszi számukra, hogy speciálisabb feladatokhoz, például szövegbesoroláshoz, fordításhoz, összegzéshez és kérdések megválaszolásához alkalmazkodjanak.
GPT
A GPT a Generative Pretrained Transformer rövidítése, amely az OpenAI által kifejlesztett nagy nyelvi modellek sorozatára utal. A GPT-modellek olyan neurális hálózatok, amelyek nagy mennyiségű adatra vannak előre betanolva az internetről, így képesek emberi szöveg megértésére és létrehozására.
Az alábbiakban áttekintjük a főbb GPT-modelleket és azok főbb jellemzőit:
GPT-3: 2020 júniusában jelent meg, és egy jól ismert modell a GPT sorozatban. 175 milliárd paramétere van, ami a létező legnagyobb és legerősebb nyelvi modellek egyike.
A GPT-3 figyelemre méltó teljesítményt ért el a természetes nyelvfelismerési és -létrehozási feladatok széles skáláján. Olyan feladatokat hajthat végre, mint a szövegkiegészítés, a fordítás és a kérdések megválaszolása emberi szintű folyékonyság mellett.
A GPT-3 különböző modellméretekre oszlik, a legkisebbtől (125 millió paramétertől) a legnagyobbig (175 milliárd paraméterig).
GPT-4: Az OpenAI legújabb GPT-modellje. 1,76 billió paramétere van.
Vektorok
A vektor egy matematikai fogalom, amelyet a lineáris algebra és a geometria a nagyság és az irány egyaránt ábrázolására használ. A gépi tanulás kontextusában a vektorokat gyakran használják adatpontok vagy funkciók ábrázolására.
A vektorok fő attribútumai és műveletei a következők:
- Magnitúdó: Egy vektor hossza vagy mérete, amelyet gyakran normaként jelölnek, az adatok nagyságát jelöli. Nem negatív valós szám.
- Irány: Az irány az általa képviselt mennyiség tájolását vagy szögét jelzi egy referenciaponthoz vagy koordinátarendszerhez viszonyítva.
-
Összetevők: A vektorok különböző tengelyek vagy dimenziók mentén bonthatók fel az összetevőkre. A 2D cartesian koordinátarendszerben a vektorok (x, y) jelölhetők, ahol az x és az y az x tengely és az y tengely mentén lévő összetevői. Az n dimenzióban lévő vektor egy n-tuple (
{x1, x2… xn}). - Összeadás és skaláris szorzás: A vektorok összeadhatók új vektorok létrehozásához, és megszorozhatók skalárokkal (valós számokkal).
- Pontalapú termékek és kereszttermékek: A vektorok ponttermékekkel (skaláris termékek) és kereszttermékekkel (vektortermékekkel) kombinálhatók.
Vektoradatbázisok
A vektoradatbázis, más néven vektoradatbázis-kezelő rendszer (DBMS) egy olyan adatbázisrendszertípus, amely vektoradatok hatékony tárolására, kezelésére és lekérdezésére szolgál. A hagyományos relációs adatbázisok elsősorban a táblák strukturált adatait kezelik, míg a vektoradatbázisok a vektorként ábrázolt többdimenziós adatpontok tárolására és lekérésére vannak optimalizálva. Ezek az adatbázisok olyan alkalmazásokban hasznosak, amelyekben olyan műveletek szerepelnek, mint a hasonlósági keresések, a térinformatikai adatok, a javaslati rendszerek és a fürtözés.
A vektoradatbázisok fő jellemzői a következők:
- Vektortároló: A vektoradatbázisok több dimenzióval rendelkező vektorként tárolják az adatpontokat. Minden dimenzió az adatpont egyik jellemzőjét vagy attribútumát jelöli. Ezek a vektorok számos adattípust képviselhetnek, beleértve a numerikus, kategorikus és szöveges adatokat is.
- Hatékony vektorműveletek: A vektoradatbázisok vektorműveletek végrehajtására vannak optimalizálva, például vektorok hozzáadására, kivonására, ponttermékekre és hasonlósági számításokra (például koszinusz hasonlóságra vagy euklideszi távolságra).
- Hatékony keresés: A hatékony indexelési mechanizmusok kulcsfontosságúak a hasonló vektorok gyors lekéréséhez. A vektoradatbázisok különböző indexelési mechanizmusokkal teszik lehetővé a gyors lekérést.
- Lekérdezési nyelvek: A vektoradatbázisok olyan lekérdezési nyelveket és API-kat biztosítanak, amelyek vektorműveletekhez és hasonlósági keresésekhez vannak igazítva. Ezek a lekérdezési nyelvek lehetővé teszik a felhasználók számára a keresési feltételek hatékony kifejezését.
- Hasonlóság keresése: A vektoradatbázisok a hasonlósági keresések során kiválóan használhatók, így a felhasználók a megadott lekérdezési ponthoz hasonló adatpontokat kereshetnek. Ez a jellemző értékes a keresési és javaslati rendszerekben.
- Térinformatikai adatkezelés: Egyes vektoradatbázisok térinformatikai adatokhoz vannak tervezve, így jól használhatók olyan alkalmazásokhoz, mint a helyalapú szolgáltatások, a földrajzi információs rendszerek (GIS-ek) és a térképekkel kapcsolatos feladatok.
- Különböző adattípusok támogatása: A vektoradatbázisok különböző típusú adatokat tárolhatnak és kezelhetnek, például vektorokat, képeket és szöveget.
A PostgreSQL a bővítménypgvector megszerezheti a vektoradatbázis képességeit.
Beágyazások
A beágyazások a gépi tanulás és a természetes nyelvi feldolgozás egyik fogalma, amely magában foglalja az objektumok (például szavak, dokumentumok vagy entitások) vektorként való ábrázolását többdimenziós térben.
Ezek a vektorok gyakran sűrűk. Ez azt jelzi, hogy nagy számú dimenziójuk van. Különböző technikákkal tanulják meg őket, beleértve a neurális hálózatokat is. A beágyazások célja az objektumok közötti szemantikai kapcsolatok és hasonlóságok rögzítése folyamatos vektortérben.
A beágyazások gyakori típusai a következők:
-
Szó: A természetes nyelvi feldolgozásban a szavak beágyazása vektorként jelöli a szavakat. Minden szó egy vektorra van leképezve egy nagy dimenziós térben, ahol a hasonló jelentéssel vagy környezettel rendelkező szavak közelebb kerülnek egymáshoz.
Word2VecésGloVenépszerű szóbeágyazási technikák. -
Dokumentum: A dokumentumbeágyazások vektorokként jelölik a dokumentumokat.
Doc2VecA dokumentumbeágyazások létrehozásakor népszerű. - Kép: A képek beágyazásként ábrázolhatók, így vizuális funkciókat rögzíthetnek olyan feladatokhoz, mint az objektumfelismerés.
A beágyazások központi szerepet jelentenek az összetett, nagy dimenziójú adatok olyan formában történő ábrázolásához, amelyet a gépi tanulási modellek könnyen feldolgozhatnak. Nagy adathalmazokon taníthatók be, majd különböző feladatokhoz használhatók funkciókként. Az LLM-ek használják őket.
A PostgreSQL képes vektoros beágyazások létrehozására az Azure AI-bővítmény OpenAI-integrációjával.
Forgatókönyvek
A Generatív AI számos különböző területen és iparágban kínál alkalmazásokat, beleértve a technológiát, az egészségügyet, a szórakozást, a pénzügyet, a gyártást és egyebeket. Íme néhány gyakori feladat, amelyet a generatív AI használatával végezhetnek el a felhasználók:
-
Szemantikai keresés:
- A Generatív AI a lexikális keresés helyett lehetővé teszi az adatok szemantikai keresését. Az utóbbi a lekérdezések pontos egyezéseit keresi, míg a szemantikai keresés olyan tartalmakat keres, amelyek megfelelnek a keresési lekérdezés szándékának.
- Csevegőrobotok és virtuális asszisztensek:
- Olyan csevegőrobotok fejlesztése, amelyek természetes környezettudatos beszélgetéseket folytathatnak; például az ügyfelek önsegítő megvalósításához.
- Ajánlórendszerek:
- A javaslati algoritmusok javítása beágyazások vagy elemek vagy felhasználók ábrázolásának létrehozásával.
- Fürtözés és szegmentálás:
- A generatív AI-alapú beágyazások lehetővé teszik a fürtözési algoritmusok számára az adatok fürtbe helyezését, hogy a hasonló adatok csoportosítva legyen. Ez a fürtözés olyan forgatókönyveket tesz lehetővé, mint az ügyfelek szegmentálása, amely lehetővé teszi, hogy a hirdetők az attribútumaik alapján eltérően célozhassák meg az ügyfeleiket.
- Tartalomgenerálás:
- Emberi szöveg létrehozása olyan alkalmazásokhoz, mint a csevegőrobotok, a regény-/verskészítés és a természetes nyelvfelismerés.
- Valós képeket, grafikákat vagy látványterveket hozhat létre grafikákhoz, szórakozáshoz és hirdetésekhez.
- Videók, animációk vagy videóeffektusok létrehozása filmekhez, játékokhoz és marketinghez.
- Zene generálása.
- Fordítás:
- Szöveg fordítása egyik nyelvről a másikra.
- Összefoglaló:
- Hosszú cikkek vagy dokumentumok összegzése a legfontosabb információk kinyeréséhez.
- Adatnagyobbítás:
- További adatminták létrehozása a gépi tanulási modellek betanítási adatkészleteinek bővítéséhez és javításához.
- A valós világban nehezen vagy költségesen gyűjtendő forgatókönyvekhez, például orvosi képalkotáshoz szintetikus adatokat hozhat létre.
- Gyógyszerészlelés:
- Molekuláris struktúrák létrehozása és potenciális gyógyszerjelöltek előrejelzése gyógyszerkutatáshoz.
- Játékfejlesztés:
- Játéktartalom létrehozása, beleértve a szinteket, karaktereket és textúrákat.
- Valós játékon belüli környezetek és tájak létrehozása.
- Adatok bejelentése és befejezése:
- Tiszta adatminták létrehozásával tisztítsa meg a zajos adatokat.
- Töltse ki a hiányzó vagy hiányos adatokat az adathalmazokban.
Kapcsolódó tartalom
- Az Azure Database for PostgreSQL integrálása az Azure Cognitive Services szolgáltatással
- Generatív AI az Azure Database for PostgreSQL-lel
- Az Azure Database for PostgreSQL integrálása az Azure Machine Learning szolgáltatással
- Vektoros beágyazások létrehozása az Azure OpenAI-val az Azure Database for PostgreSQL-ben
- Azure AI-bővítmény az Azure Database for PostgreSQL-ben
- Javaslati rendszer létrehozása az Azure Database for PostgreSQL és az Azure OpenAI használatával
- Szemantikai keresés létrehozása az Azure Database for PostgreSQL és az Azure OpenAI használatával
- A pgvector engedélyezése és használata az Azure Database for PostgreSQL-ben