Sdílet prostřednictvím


Jak používat rozpoznávání jazyka

Funkce Rozpoznávání jazyka může vyhodnotit text a vrátit identifikátor jazyka, který označuje jazyk, ve kterém byl dokument napsán.

Rozpoznávání jazyka je užitečné pro úložiště obsahu, které shromažďují libovolný text, kde jazyk není znám. Výsledky této analýzy můžete parsovat a určit, v kterém jazyce je vstupní dokument napsaný. Odpověď také vrátí skóre mezi 0 a 1, které odráží spolehlivost modelu.

Funkce Rozpoznávání jazyka dokáže rozpoznat širokou škálu jazyků, variant, dialektů a některých regionálních nebo kulturních jazyků.

Možnosti vývoje

Pokud chcete použít rozpoznávání jazyka, odešlete nezpracovaný nestrukturovaný text pro analýzu a zpracujete výstup rozhraní API ve vaší aplikaci. Analýza se provádí tak, jak je, bez dalšího přizpůsobení modelu používaného na vašich datech. Rozpoznávání jazyka můžete použít třemi způsoby:

Možnost vývoje Popis
Language Studio Language Studio je webová platforma, která umožňuje vyzkoušet propojení entit s textovými příklady bez účtu Azure a vlastní data při registraci. Další informace najdete na webu language Studio nebo v rychlém startu language studio.
ROZHRANÍ REST API nebo klientská knihovna (Azure SDK) Integrujte rozpoznávání jazyka do svých aplikací pomocí rozhraní REST API nebo klientské knihovny dostupné v různých jazycích. Další informace najdete v rychlém startu pro rozpoznávání jazyka.
Kontejner Dockeru Pomocí dostupného kontejneru Dockeru nasaďte tuto funkci místně. Tyto kontejnery Dockeru umožňují přiblížit službu vašim datům z důvodu dodržování předpisů, zabezpečení nebo jiných provozních důvodů.

Určení způsobu zpracování dat (volitelné)

Určení modelu rozpoznávání jazyka

Ve výchozím nastavení bude rozpoznávání jazyka ve vašem textu používat nejnovější dostupný model AI. Můžete také nakonfigurovat požadavky rozhraní API tak, aby používaly konkrétní verzi modelu.

Vstupní jazyky

Při odesílání dokumentů k vyhodnocení se rozpoznávání jazyka pokusí zjistit, jestli byl text napsán v některém z podporovaných jazyků.

Pokud máte obsah vyjádřený méně často používaným jazykem, můžete vyzkoušet funkci Rozpoznávání jazyka a zjistit, jestli vrací kód. Odpověď pro jazyky, které nelze zjistit, je unknown.

Odesílání dat

Tip

Ke zjišťování jazyka můžete použít kontejnerDockeru, abyste mohli používat rozhraní API místně.

Analýza se provede po přijetí žádosti. Synchronní použití funkce rozpoznávání jazyka je bezstavové. Ve vašem účtu se neukládají žádná data a výsledky se vrátí okamžitě v odpovědi.

Při asynchronním použití této funkce jsou výsledky rozhraní API k dispozici po dobu 24 hodin od doby, kdy se žádost ingestovala, a je uvedena v odpovědi. Po uplynutí tohoto časového období se výsledky vyprázdní a už nejsou k dispozici pro načtení.

Získání výsledků rozpoznávání jazyka

Když dostanete výsledky z rozpoznávání jazyka, můžete výsledky streamovat do aplikace nebo uložit výstup do souboru v místním systému.

Rozpoznávání jazyka vrátí jeden převládající jazyk pro každý dokument, který odešlete, spolu s názvem ISO 639-1, názvem čitelným člověkem, skóre spolehlivosti, názvem skriptu a kódem skriptu podle standardu ISO 15924. Kladné skóre 1 označuje nejvyšší možnou úroveň spolehlivosti analýzy.

Nejednoznačný obsah

V některých případech může být obtížné jednoznačně rozpoznat jazyk na základě vstupu. Pomocí parametru countryHint můžete zadat kód ISO 3166-1 alfa-2 země/oblasti. Ve výchozím nastavení rozhraní API používá jako výchozí nápovědu země "USA". Chcete-li toto chování odebrat, můžete tento parametr obnovit nastavením této hodnoty na prázdný řetězec countryHint = "" .

Například "komunikace" je společná pro angličtinu i francouzštinu a pokud je uvedena s omezeným kontextem, bude odpověď založena na nápovědě pro zemi nebo oblast USA. Pokud je původ textu známý jako původ z Francie, který lze dát jako nápovědu.

Poznámka:

Nejednoznačný obsah může způsobit nižší skóre spolehlivosti. Hodnota countryHint v odpovědi je použitelná pouze v případě, že skóre spolehlivosti je menší než 0,8.

Vstup

{
    "documents": [
        {
            "id": "1",
            "text": "communication"
        },
        {
            "id": "2",
            "text": "communication",
            "countryHint": "fr"
        }
    ]
}

V druhém dokumentu má model rozpoznávání jazyka další kontext, který má lepší úsudek, protože obsahuje countryHint vlastnost ve vstupu výše. Tím se vrátí následující výstup.

Výstup

{
    "documents":[
        {
            "detectedLanguage":{
                "confidenceScore":0.62,
                "iso6391Name":"en",
                "name":"English"
            },
            "id":"1",
            "warnings":[
                
            ]
        },
        {
            "detectedLanguage":{
                "confidenceScore":1.0,
                "iso6391Name":"fr",
                "name":"French"
            },
            "id":"2",
            "warnings":[
                
            ]
        }
    ],
    "errors":[
        
    ],
    "modelVersion":"2022-10-01"
}

Pokud analyzátor nemůže analyzovat vstup, vrátí (Unknown). Příkladem je odeslání textového řetězce, který se skládá výhradně z čísel.

{
    "documents": [
        {
            "id": "1",
            "detectedLanguage": {
                "name": "(Unknown)",
                "iso6391Name": "(Unknown)",
                "confidenceScore": 0.0
            },
            "warnings": []
        }
    ],
    "errors": [],
    "modelVersion": "2023-12-01"
}

Obsah ve smíšeném jazyce

Obsah ve smíšeném jazyce ve stejném dokumentu vrátí jazyk s největší reprezentací obsahu, ale s nižším kladným hodnocením. Hodnocení odráží mezní sílu posouzení. V následujícím příkladu je vstup směsicí angličtiny, španělštiny a francouzštiny. Analyzátor spočítá znaky v jednotlivých segmentech, aby určil převládající jazyk.

Vstup

{
    "documents": [
        {
            "id": "1",
            "text": "Hello, I would like to take a class at your University. ¿Se ofrecen clases en español? Es mi primera lengua y más fácil para escribir. Que diriez-vous des cours en français?"
        }
    ]
}

Výstup

Výsledný výstup se skládá z převládajícího jazyka s skóre nižším než 1,0, což označuje slabší úroveň spolehlivosti.

{
    "kind": "LanguageDetectionResults",
    "results": {
        "documents": [
            {
                "id": "1",
                "detectedLanguage": {
                    "name": "Spanish",
                    "iso6391Name": "es",
                    "confidenceScore": 0.97,
                    "script": "Latin",
                    "scriptCode": "Latn"
                },
                "warnings": []
            }
        ],
        "errors": [],
        "modelVersion": "2023-12-01"
    }
}

Název skriptu a kód skriptu

Poznámka:

  • Detekce skriptů je aktuálně omezena na vybrané jazyky.
  • Detekce skriptů je k dispozici pouze pro textový vstup, který je delší než 12 znaků.

Rozpoznávání jazyka nabízí možnost detekovat více než jeden skript na jazyk podle standardu ISO 15924. Konkrétně rozpoznávání jazyka vrací dvě vlastnosti související se skripty:

  • script: Název identifikovaného skriptu čitelný pro člověka
  • scriptCode: Kód ISO 15924 pro identifikovaný skript

Výstup rozhraní API obsahuje hodnotu scriptCode vlastnosti pro dokumenty, které mají délku nejméně 12 znaků a odpovídají seznamu podporovaných jazyků a skriptů. Detekce skriptů je navržená tak, aby využívala uživatele, jejichž jazyk může být transkriptován nebo napsán ve více než jednom skriptu, například kazaštině nebo hindštině.

Dříve byla detekce jazyka navržena tak, aby detekovala jazyk dokumentů v široké škále jazyků, dialektů a regionálních variant, ale byla omezena "romanizací". Romanizace odkazuje na převod textu z jednoho systému zápisu do římského (latinského) skriptu a je nezbytné pro detekci mnoha jazyků Indo-European. Existují však další jazyky, které jsou napsané ve více skriptech, jako je kazaština, které lze psát v cyrilice, Perso-Arabštině a latince. Existují i jiné případy, kdy si uživatelé můžou zvolit nebo se vyžadují k transkripci jazyka ve více než jednom skriptu, jako je například hindština transkripce v latince, kvůli omezené dostupnosti klávesnic, které podporují jeho skript Devanagari.

V důsledku toho se rozšířená podpora rozpoznávání jazyka pro detekci skriptů chová takto:

Vstup

{ 
    "kind": "LanguageDetection", 
    "parameters": { 
        "modelVersion": "latest" 
    }, 
    "analysisInput": { 
        "documents": [ 
            { 
                "id": "1", 
                "text": "आप कहाँ जा रहे हैं?" 
            }, 
            { 
                "id": "2", 
                "text": "Туған жерім менің - Қазақстаным" 
            } 
        ] 
    } 
} 

Výstup

Výsledný výstup se skládá z převládajícího jazyka spolu s názvem skriptu, kódem skriptu a skóre spolehlivosti.

{ 
    "kind": "LanguageDetectionResults", 
    "results": { 
        "documents": [ 
            { 
                "id": "1", 
                "detectedLanguage": { 
                    "name": "Hindi", 
                    "iso6391Name": "hi", 
                    "confidenceScore": 1.0, 
                    "script": "Devanagari", 
                    "scriptCode": "Deva" 
                }, 
                "warnings": [] 
            }, 
            { 
                "id": "2", 
                "detectedLanguage": { 
                    "name": "Kazakh", 
                    "iso6391Name": "kk", 
                    "confidenceScore": 1.0, 
                    "script": "Cyrillic",  
                    "scriptCode": "Cyrl" 
                }, 
                "warnings": [] 
            } 
        ], 
        "errors": [], 
        "modelVersion": "2023-12-01" 
    } 
}

Limity služeb a dat

Informace o velikosti a počtu požadavků, které můžete odeslat za minutu a sekundu, najdete v článku o omezeních služeb.

Viz také