Szemantikai nyelvi modellek ismertetése
Az NLP fejlődése következtében a tokenek szemantikai kapcsolatát beágyazó modellek betanítása erős mélytanulási nyelvi modellek megjelenéséhez vezetett. Ezeknek a modelleknek a középpontjában a nyelvi elemek vektorokként (többértékű számtömbök) való kódolása, más néven beágyazások, áll.
A vektorok többdimenziós térben lévő vonalakat jelölnek, amelyek több tengely mentén írják le az irányt és a távolságot. Összességében a vektor leírja az út irányát és távolságát a kiindulási ponttól a végpontig. A szemantikailag hasonló tokeneknek hasonló tájolású vektorokat kell eredményezniük – vagyis azonos irányba mutatnak. Egyszerű példaként tegyük fel, hogy a tokenek embeddingje olyan vektorokból áll, amelyek három elemet tartalmaznak, például:
- 4 ("dog"): [10,3,2]
- 8 ("cat"): [10,3,1]
- 9 ("puppy") [5,2,1]
- 10 ("skateboard"): [-3,3,2]
A háromdimenziós térben ezek a vektorok a következőképpen néznek ki:
A "kutya" és a "kiskutya" beágyazási vektorai szinte azonos irányban írják le az útvonalat, ami szintén meglehetősen hasonlít a "macska" irányához. A "skateboard" beágyazási vektora azonban egy teljesen más irányba mutató utazást ír le.
Az iparágban használt nyelvi modellek ezen alapelveken alapulnak, de összetettebbek. A használt vektorok például általában sokkal több dimenzióval rendelkeznek. Több módon is kiszámíthatja a megfelelő beágyazásokat egy adott tokenkészlethez. A különböző módszerek különböző előrejelzéseket eredményeznek a természetes nyelvi feldolgozási modellektől.
A legkorszerűbb természetes nyelvi feldolgozási megoldások általános nézete az alábbi ábrán látható. A nyers szöveg nagy korpuszát tokenizálják, és nyelvi modellek betanítása céljából használják, amelyek számos különböző típusú természetes nyelvi feldolgozási feladatot támogatnak.
Gépi tanulás szövegbesoroláshoz
Egy másik hasznos szövegelemzési technika a besorolási algoritmus, például a logisztikai regresszió használata egy olyan gépi tanulási modell betanítására, amely ismert kategóriák alapján osztályozza a szöveget. Ennek a technikának a gyakori alkalmazása egy olyan modell betanítása, amely pozitív vagy negatívként osztályozza a szöveget hangulatelemzés vagy véleménybányászat céljából.
Vegyük például a következő éttermi értékeléseket, amelyek már 0 (negatív) vagy 1 (pozitív) címkével vannak megjelölve:
- *The food and service were both great*: 1
- *A really terrible experience*: 0
- *Mmm! tasty food and a fun vibe*: 1
- *Slow service and substandard food*: 0
Elegendő címkével ellátott értékelésekből betaníthat egy besorolási modellt a tokenizált szöveg jellemzőként és a hangulatot (0 vagy 1) címkeként. A modell a tokenek és a hangulatok közötti kapcsolatot fogja megjeleníteni – például az olyan tokeneket tartalmazó vélemények, mint "great", "tasty" vagy "fun", valószínűbb, hogy 1 (pozitív) hangulatot tükröznek, míg az olyan szavakat tartalmazó vélemények, mint "terrible", "slow" és "substandard", nagyobb valószínűséggel 0 (negatív) hangulatot adnak vissza.