Nyelvi támogatás az egyéni elnevezett entitások felismeréséhez

Cikk
12/19/2023

Ebből a cikkből megismerheti az egyéni nevesített entitásfelismerési funkció által jelenleg támogatott nyelveket.

Többnyelvű beállítás

Az egyéni NER használatával betaníthat egy modellt egy nyelven, és egy másik nyelven kinyerheti az entitásokat a dokumentumokból. Ez a funkció hatékony, mert segít időt és energiát megtakarítani. Ahelyett, hogy minden nyelvhez külön projekteket hoz létre, egyetlen projektben kezelheti a többnyelvű adatkészletet. Az adathalmaznak nem kell teljesen azonos nyelvűnek lennie, de a projektbeállításokban való létrehozáskor vagy később engedélyeznie kell a többnyelvű beállítást a projekthez. Ha azt tapasztalja, hogy a modell bizonyos nyelveken rosszul teljesít a kiértékelési folyamat során, fontolja meg további adatok hozzáadását ezeken a nyelveken a betanítási készlethez.

A projektet teljes egészében angol nyelvű dokumentumokkal taníthatja be, és lekérdezheti a következő nyelveken: francia, német, mandarin, japán, koreai és egyéb. Az egyéni elnevezett entitások felismerése megkönnyíti a projektek több nyelvre való skálázását többnyelvű technológia használatával a modellek betanítása érdekében.

Ha azt állapítja meg, hogy egy adott nyelv nem teljesít, és más nyelveket is, a projektben további dokumentumokat adhat hozzá az adott nyelvhez. A Language Studio adatcímkézési lapján kiválaszthatja a hozzáadni kívánt dokumentum nyelvét. Ha több dokumentumot vezet be a modellhez az adott nyelvhez, az az adott nyelv szintaxisának nagyobb részét mutatja be, és megtanulja jobban előrejelezni.

Nem várható, hogy minden nyelvhez ugyanannyi dokumentumot adjon hozzá. A projekt nagy részét egy nyelven kell összeállítania, és csak néhány olyan dokumentumot kell hozzáadnia a megfigyelt nyelvekhez, amelyek nem teljesítenek jól. Ha olyan projektet hoz létre, amely elsősorban angolul van, és francia, német és spanyol nyelven kezdi el tesztelni, megfigyelheti, hogy a német nem teljesít olyan jól, mint a másik két nyelv. Ebben az esetben fontolja meg az eredeti angol dokumentumok 5%-ának német nyelvű hozzáadását, egy új modell betanítása és a német nyelv ismételt tesztelése. Jobb eredményeket kell látnia a német lekérdezésekhez. Minél több címkével ellátott dokumentumot ad hozzá, annál valószínűbb, hogy az eredmények jobbak lesznek.

Ha más nyelven ad hozzá adatokat, nem szabad azt várnia, hogy az negatív hatással lesz más nyelvekre.

Nyelvi támogatás

Az egyéni NER a következő nyelveken támogatja .txt a fájlokat:

Nyelv	Nyelvkód
Búr	`af`
Amhara	`am`
Arab	`ar`
Asszámi	`as`
Azerbajdzsáni	`az`
Belorusz	`be`
Bolgár	`bg`
Bengáli	`bn`
Breton	`br`
bosnyák	`bs`
Katalán	`ca`
Cseh	`cs`
Walesi	`cy`
Dán	`da`
Német	`de`
Görög	`el`
Angol (US)	`en-us`
Eszperantó	`eo`
Spanyol	`es`
Észt	`et`
Baszk	`eu`
Perzsa	`fa`
Finn	`fi`
Francia	`fr`
Nyugati fríz	`fy`
Ír	`ga`
Skót gaelic	`gd`
Gallego	`gl`
Gudzsaráti	`gu`
Hausa	`ha`
héber	`he`
Hindi	`hi`
Horvát	`hr`
Magyar	`hu`
Örmény	`hy`
Indonéz	`id`
Olasz	`it`
Japán	`ja`
Jávai	`jv`
Grúz	`ka`
Kazak	`kk`
Khmer	`km`
Kannada	`kn`
Koreai	`ko`
Kurd (Kurmanji)	`ku`
Kirgiz	`ky`
Latin	`la`
Lao	`lo`
Litván	`lt`
Lett	`lv`
Málgas	`mg`
Macedón	`mk`
Malajálam	`ml`
Mongol	`mn`
Marathi	`mr`
Maláj	`ms`
Burmai	`my`
Nepáli	`ne`
Holland	`nl`
Norvég (Bokmal)	`nb`
Odia	`or`
Pandzsábi	`pa`
Lengyel	`pl`
Pastu	`ps`
Portugál (Brazília)	`pt-br`
Portugál (Portugália)	`pt-pt`
Román	`ro`
Orosz	`ru`
Szanszkrit	`sa`
Szindi	`sd`
Singhalese	`si`
Szlovák	`sk`
Szlovén	`sl`
Szomáli	`so`
Albán	`sq`
szerb	`sr`
Sundanese	`su`
Svéd	`sv`
Szuahéli	`sw`
Tamil	`ta`
Telugu	`te`
Thai	`th`
Filipino	`tl`
Török	`tr`
Ujgur	`ug`
Ukrán	`uk`
urdu	`ur`
Üzbég	`uz`
Vietnámi	`vi`
Xhosza	`xh`
Jiddis	`yi`
Kínai (egyszerűsített)	`zh-hans`
Zulu	`zu`

Megosztás a következőn keresztül:

Nyelvi támogatás az egyéni elnevezett entitások felismeréséhez

Többnyelvű beállítás

Nyelvi támogatás

Következő lépések

Visszajelzés

Visszajelzés

További források