A nyelvfelismerés használata

Cikk
12/19/2023

A Nyelvfelismerés funkció képes kiértékelni a szöveget, és visszaadni egy nyelvazonosítót, amely jelzi a dokumentum nyelvét.

A nyelvfelismerés olyan tartalomtárolókban hasznos, amelyek tetszőleges szöveget gyűjtenek, ahol a nyelv ismeretlen. Az analízis eredményei elemezhetők annak meghatározására, hogy milyen nyelvet használ a bemeneti dokumentum. A válasz egy 0 és 1 közötti pontszámot is ad vissza, amely tükrözi a modell megbízhatóságát.

A Nyelvfelismerés funkció számos nyelvet, változatot, dialektust és néhány regionális vagy kulturális nyelvet képes észlelni.

Fejlesztési lehetőségek

A nyelvészlelés használatához nyers, strukturálatlan szöveget kell küldenie elemzéshez, és kezelnie kell az API kimenetét az alkalmazásban. Az elemzés az adott módon történik, az adatokon használt modell további testreszabása nélkül. A nyelvfelismerés kétféleképpen használható:

Fejlesztési lehetőség	Description
Language Studio	A Language Studio egy webalapú platform, amellyel azure-fiók nélkül próbálhat entitásokat összekapcsolni szöveges példákkal, valamint saját adatokkal, amikor regisztrál. További információt a Language Studio webhelyén vagy a Language Studio rövid útmutatójában talál.
REST API vagy ügyfélkódtár (Azure SDK)	Integrálja a nyelvfelismerést az alkalmazásokba a REST API vagy a különböző nyelveken elérhető ügyfélkódtár használatával. További információt a nyelvfelismerési rövid útmutatóban talál.
Docker-tároló	A szolgáltatás helyszíni üzembe helyezéséhez használja a rendelkezésre álló Docker-tárolót. Ezek a Docker-tárolók lehetővé teszik, hogy megfelelőségi, biztonsági vagy egyéb működési okokból közelebb hozza a szolgáltatást az adataihoz.

Az adatok feldolgozásának meghatározása (nem kötelező)

A nyelvfelismerési modell megadása

Alapértelmezés szerint a nyelvfelismerés a legújabb elérhető AI-modellt használja a szövegen. Az API-kéréseket úgy is konfigurálhatja, hogy egy adott modellverziót használjanak.

Beviteli nyelvek

A kiértékelendő dokumentumok elküldésekor a nyelvészlelés megkísérli megállapítani, hogy a szöveg valamelyik támogatott nyelven lett-e megírva.

Ha a tartalom ritkábban használt nyelven van kifejezve, megpróbálkozhat a Nyelvfelismerés funkcióval, és ellenőrizheti, hogy az visszaad-e egy kódot. A nem észlelhető nyelvekre a következő választ kell adni: unknown.

Adatok elküldése

Tipp

Használhat egy Docker-tárolóta nyelvfelismeréshez, így a helyszíni API-t is használhatja.

Az elemzés a kérelem megkapásakor történik meg. A nyelvfelismerési funkció szinkron használata állapot nélküli. A rendszer nem tárol adatokat a fiókjában, és a rendszer azonnal visszaadja az eredményeket a válaszban.

Ha aszinkron módon használja ezt a funkciót, az API-eredmények a kérés betöltésétől számítva 24 óráig érhetők el, és a válaszban is megjelenik. Ezt követően az eredmények törlődnek, és már nem érhetők el lekérésre.

Nyelvfelismerési eredmények lekérése

Ha nyelvfelismerési eredményeket kap, streamelheti az eredményeket egy alkalmazásba, vagy mentheti a kimenetet egy fájlba a helyi rendszeren.

A nyelvfelismerés minden beküldött dokumentumhoz egy elsődleges nyelvet ad vissza, valamint az ISO 639-1 nevet, egy olvasható nevet és egy megbízhatósági pontszámot. Az 1 pozitív pontszám az elemzés lehető legmagasabb megbízhatósági szintjét jelzi.

Nem egyértelmű tartalom

Bizonyos esetekben nehéz lehet a bemenet alapján egyértelműsíteni a nyelveket. A paraméter használatával countryHint megadhat egy ISO 3166-1 alfa-2 ország- /régiókódot. Alapértelmezés szerint az API az "USA"-t használja alapértelmezett országmutatóként. A viselkedés eltávolításához állítsa alaphelyzetbe ezt a paramétert úgy, hogy ezt az értéket üres sztringre countryHint = "" állítja.

A "kommunikáció" például az angol és a francia nyelv esetében is gyakori, és ha korlátozott kontextusban adódik, a válasz az "USA" ország/régió tippjén alapul. Ha ismert, hogy a szöveg eredete Franciaország, ez megadható tippként.

Bevitel

{
    "documents": [
        {
            "id": "1",
            "text": "communication"
        },
        {
            "id": "2",
            "text": "communication",
            "countryHint": "fr"
        }
    ]
}

A nyelvfelismerési modell mostantól további kontextust is biztosít a jobb ítélőképesség érdekében:

Kimenet

{
    "documents":[
        {
            "detectedLanguage":{
                "confidenceScore":0.62,
                "iso6391Name":"en",
                "name":"English"
            },
            "id":"1",
            "warnings":[
                
            ]
        },
        {
            "detectedLanguage":{
                "confidenceScore":1.0,
                "iso6391Name":"fr",
                "name":"French"
            },
            "id":"2",
            "warnings":[
                
            ]
        }
    ],
    "errors":[
        
    ],
    "modelVersion":"2022-10-01"
}

Ha az elemző nem tudja elemezni a bemenetet, a értéket adja (Unknown)vissza. Ilyen például, ha olyan szöveges sztringet küld el, amely kizárólag számokból áll.

{
    "documents": [
        {
            "id": "1",
            "detectedLanguage": {
                "name": "(Unknown)",
                "iso6391Name": "(Unknown)",
                "confidenceScore": 0.0
            },
            "warnings": []
        }
    ],
    "errors": [],
    "modelVersion": "2021-01-05"
}

Vegyes nyelvű tartalom

Az ugyanazon dokumentumon belüli vegyes nyelvű tartalom a tartalom legnagyobb reprezentációjával rendelkező, de alacsonyabb pozitív minősítésű nyelvet adja vissza. A minősítés az értékelés marginális erejét tükrözi. A következő példában a bemeneti adat angol, német és francia nyelv kombinációja. Az elemző minden szegmensben megszámolja a karakterek számát az uralkodó nyelv meghatározásához.

Bevitel

{
    "documents": [
        {
            "id": "1",
            "text": "Hello, I would like to take a class at your University. ¿Se ofrecen clases en español? Es mi primera lengua y más fácil para escribir. Que diriez-vous des cours en français?"
        }
    ]
}

Kimenet

Az eredményül kapott kimenet az elsődleges nyelvből áll, 1,0-nál kisebb pontszámmal, ami gyengébb megbízhatósági szintet jelez.

{
    "documents": [
        {
            "id": "1",
            "detectedLanguage": {
                "name": "Spanish",
                "iso6391Name": "es",
                "confidenceScore": 0.88
            },
            "warnings": []
        }
    ],
    "errors": [],
    "modelVersion": "2021-01-05"
}

Szolgáltatási és adatkorlátok

A percenként és másodpercenként küldhető kérések méretéről és számáról a szolgáltatási korlátokról szóló cikkben talál további információt.

Lásd még

A nyelvfelismerés áttekintése

Megosztás a következőn keresztül: