A nyelvfelismerés használata
A Nyelvfelismerés funkció képes kiértékelni a szöveget, és visszaadni egy nyelvazonosítót, amely jelzi a dokumentum nyelvét.
A nyelvfelismerés olyan tartalomtárolókban hasznos, amelyek tetszőleges szöveget gyűjtenek, ahol a nyelv ismeretlen. Az analízis eredményei elemezhetők annak meghatározására, hogy milyen nyelvet használ a bemeneti dokumentum. A válasz egy 0 és 1 közötti pontszámot is ad vissza, amely tükrözi a modell megbízhatóságát.
A Nyelvfelismerés funkció számos nyelvet, változatot, dialektust és néhány regionális vagy kulturális nyelvet képes észlelni.
Fejlesztési lehetőségek
A nyelvészlelés használatához nyers, strukturálatlan szöveget kell küldenie elemzéshez, és kezelnie kell az API kimenetét az alkalmazásban. Az elemzés az adott módon történik, az adatokon használt modell további testreszabása nélkül. A nyelvfelismerés kétféleképpen használható:
Fejlesztési lehetőség | Description |
---|---|
Language Studio | A Language Studio egy webalapú platform, amellyel azure-fiók nélkül próbálhat entitásokat összekapcsolni szöveges példákkal, valamint saját adatokkal, amikor regisztrál. További információt a Language Studio webhelyén vagy a Language Studio rövid útmutatójában talál. |
REST API vagy ügyfélkódtár (Azure SDK) | Integrálja a nyelvfelismerést az alkalmazásokba a REST API vagy a különböző nyelveken elérhető ügyfélkódtár használatával. További információt a nyelvfelismerési rövid útmutatóban talál. |
Docker-tároló | A szolgáltatás helyszíni üzembe helyezéséhez használja a rendelkezésre álló Docker-tárolót. Ezek a Docker-tárolók lehetővé teszik, hogy megfelelőségi, biztonsági vagy egyéb működési okokból közelebb hozza a szolgáltatást az adataihoz. |
Az adatok feldolgozásának meghatározása (nem kötelező)
A nyelvfelismerési modell megadása
Alapértelmezés szerint a nyelvfelismerés a legújabb elérhető AI-modellt használja a szövegen. Az API-kéréseket úgy is konfigurálhatja, hogy egy adott modellverziót használjanak.
Beviteli nyelvek
A kiértékelendő dokumentumok elküldésekor a nyelvészlelés megkísérli megállapítani, hogy a szöveg valamelyik támogatott nyelven lett-e megírva.
Ha a tartalom ritkábban használt nyelven van kifejezve, megpróbálkozhat a Nyelvfelismerés funkcióval, és ellenőrizheti, hogy az visszaad-e egy kódot. A nem észlelhető nyelvekre a következő választ kell adni: unknown
.
Adatok elküldése
Tipp
Használhat egy Docker-tárolóta nyelvfelismeréshez, így a helyszíni API-t is használhatja.
Az elemzés a kérelem megkapásakor történik meg. A nyelvfelismerési funkció szinkron használata állapot nélküli. A rendszer nem tárol adatokat a fiókjában, és a rendszer azonnal visszaadja az eredményeket a válaszban.
Ha aszinkron módon használja ezt a funkciót, az API-eredmények a kérés betöltésétől számítva 24 óráig érhetők el, és a válaszban is megjelenik. Ezt követően az eredmények törlődnek, és már nem érhetők el lekérésre.
Nyelvfelismerési eredmények lekérése
Ha nyelvfelismerési eredményeket kap, streamelheti az eredményeket egy alkalmazásba, vagy mentheti a kimenetet egy fájlba a helyi rendszeren.
A nyelvfelismerés minden beküldött dokumentumhoz egy elsődleges nyelvet ad vissza, valamint az ISO 639-1 nevet, egy olvasható nevet és egy megbízhatósági pontszámot. Az 1 pozitív pontszám az elemzés lehető legmagasabb megbízhatósági szintjét jelzi.
Nem egyértelmű tartalom
Bizonyos esetekben nehéz lehet a bemenet alapján egyértelműsíteni a nyelveket. A paraméter használatával countryHint
megadhat egy ISO 3166-1 alfa-2 ország- /régiókódot. Alapértelmezés szerint az API az "USA"-t használja alapértelmezett országmutatóként. A viselkedés eltávolításához állítsa alaphelyzetbe ezt a paramétert úgy, hogy ezt az értéket üres sztringre countryHint = ""
állítja.
A "kommunikáció" például az angol és a francia nyelv esetében is gyakori, és ha korlátozott kontextusban adódik, a válasz az "USA" ország/régió tippjén alapul. Ha ismert, hogy a szöveg eredete Franciaország, ez megadható tippként.
Bevitel
{
"documents": [
{
"id": "1",
"text": "communication"
},
{
"id": "2",
"text": "communication",
"countryHint": "fr"
}
]
}
A nyelvfelismerési modell mostantól további kontextust is biztosít a jobb ítélőképesség érdekében:
Kimenet
{
"documents":[
{
"detectedLanguage":{
"confidenceScore":0.62,
"iso6391Name":"en",
"name":"English"
},
"id":"1",
"warnings":[
]
},
{
"detectedLanguage":{
"confidenceScore":1.0,
"iso6391Name":"fr",
"name":"French"
},
"id":"2",
"warnings":[
]
}
],
"errors":[
],
"modelVersion":"2022-10-01"
}
Ha az elemző nem tudja elemezni a bemenetet, a értéket adja (Unknown)
vissza. Ilyen például, ha olyan szöveges sztringet küld el, amely kizárólag számokból áll.
{
"documents": [
{
"id": "1",
"detectedLanguage": {
"name": "(Unknown)",
"iso6391Name": "(Unknown)",
"confidenceScore": 0.0
},
"warnings": []
}
],
"errors": [],
"modelVersion": "2021-01-05"
}
Vegyes nyelvű tartalom
Az ugyanazon dokumentumon belüli vegyes nyelvű tartalom a tartalom legnagyobb reprezentációjával rendelkező, de alacsonyabb pozitív minősítésű nyelvet adja vissza. A minősítés az értékelés marginális erejét tükrözi. A következő példában a bemeneti adat angol, német és francia nyelv kombinációja. Az elemző minden szegmensben megszámolja a karakterek számát az uralkodó nyelv meghatározásához.
Bevitel
{
"documents": [
{
"id": "1",
"text": "Hello, I would like to take a class at your University. ¿Se ofrecen clases en español? Es mi primera lengua y más fácil para escribir. Que diriez-vous des cours en français?"
}
]
}
Kimenet
Az eredményül kapott kimenet az elsődleges nyelvből áll, 1,0-nál kisebb pontszámmal, ami gyengébb megbízhatósági szintet jelez.
{
"documents": [
{
"id": "1",
"detectedLanguage": {
"name": "Spanish",
"iso6391Name": "es",
"confidenceScore": 0.88
},
"warnings": []
}
],
"errors": [],
"modelVersion": "2021-01-05"
}
Szolgáltatási és adatkorlátok
A percenként és másodpercenként küldhető kérések méretéről és számáról a szolgáltatási korlátokról szóló cikkben talál további információt.
Lásd még
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: