Az LLM-ek ismertetése
A nagy nyelvi modell (LLM) egy olyan AI-típus, amely természetes nyelvi szövegeket képes feldolgozni és előállítani. Rengeteg olyan forrásból gyűjtött adatokból tanul, mint a könyvek, cikkek, weblapok és képek, hogy felfedezzék a nyelv mintáit és szabályait.
Mekkoraak?
Az LLM neurális hálózati architektúra használatával készül. Bemenetet igényel, több rejtett réteggel rendelkezik, amelyek a nyelv különböző aspektusait bontják fel, és a kimeneti rétegben jönnek létre.
Az emberek gyakran jelentik, hogy a legújabb alapmodell nagyobb, mint az utolsó, de mit jelent ez? Röviden: minél több paramétere van egy modellnek, annál több adatot képes feldolgozni, tanulni és létrehozni.
A neurális hálózati architektúra két neuronja közötti minden kapcsolathoz tartozik egy függvény: súly * bemenet + torzítás. Ez a hálózat numerikus értékeket állít elő, amelyek meghatározzák, hogy a modell hogyan dolgozza fel a nyelvet.
Az LLM-ek valóban nagyok, és gyorsan növekednek. Egyes modellek több millió paramétert számíthatnak ki 2018-ban. De ma a GPT-4 több trillió paramétert képes kiszámítani.
Hol férnek el az alapmodellek az LLM-ekhez?
Az alapmodell egy LLM egy adott példányára vagy verziójára utal. Például GPT-3, GPT-4 vagy Codex.
Az alapmodellek betanítása és finomhangolása nagy mennyiségű szövegre vagy kódra történik, ha egy Codex-modellpéldányról van szó.
Az alapmodellek betanítási adatokat használnak különböző formátumokban, és transzformátorarchitektúrát használnak egy általános modell létrehozásához. Adaptációk és specializációk hozhatók létre, hogy bizonyos feladatokat kérésekkel vagy finomhangolással lehessen elérni.
Miben különbözik egy LLM a hagyományosabb természetes nyelvi feldolgozástól (NLP)?
Van néhány dolog, amely elválasztja a hagyományos NLP-ket az LLM-ektől.
Hagyományos NLP | Nagy nyelvi modellek |
---|---|
Képességenként egy modellre van szükség. | A rendszer egyetlen modellt használ számos természetes nyelvi használati esethez. |
Az ML-modell betanítása címkézett adatok készletét biztosítja. | Az alapmodellben sok terabájtnyi címkézetlen adatot használ. |
Természetes nyelven ismerteti, hogy mit szeretne a modell elvégezni. | Kifejezetten adott használati esetekre optimalizálva. |
Mit nem tesz egy LLM?
Bármennyire is fontos megérteni, hogy egy LLM mire képes, ugyanilyen fontos megérteni, hogy mit nem tehet, ezért a megfelelő eszközt kell választania a feladathoz.
Nyelv megértése: Az LLM egy prediktív motor, amely a már meglévő szövegek alapján összehúzza a mintákat, hogy több szöveget állítsunk elő. Nem érti a nyelvet vagy a matematikát.
Tények értelmezése: Az LLM nem rendelkezik külön módokkal az információlekéréshez és a kreatív íráshoz; egyszerűen előrejelzi a következő legvalószínűbb jogkivonatot.
A modor, az érzelem vagy az etika megértése: Az LLM nem mutathat antropomorfizmust, és nem értheti meg az etikát. Az alapmodell kimenete a betanítási adatok és a kérések kombinációja.