Jak používat rozpoznávání jazyka

Článek
12/19/2023

Funkce Rozpoznávání jazyka může vyhodnotit text a vrátit identifikátor jazyka, který označuje jazyk, ve kterém byl dokument napsán.

Rozpoznávání jazyka je užitečné pro úložiště obsahu, která shromažďují libovolný text, kde je jazyk neznámý. Výsledky této analýzy můžete parsovat a určit, v kterém jazyce je vstupní dokument napsaný. Odpověď také vrátí skóre mezi 0 a 1, které odráží spolehlivost modelu.

Funkce Rozpoznávání jazyka dokáže rozpoznat širokou škálu jazyků, variant, dialektů a některých regionálních nebo kulturních jazyků.

Možnosti vývoje

Pokud chcete používat rozpoznávání jazyka, odešlete nezpracovaný nestrukturovaný text pro analýzu a zpracujete výstup rozhraní API ve vaší aplikaci. Analýza se provádí tak, jak je, bez dalšího přizpůsobení modelu použitého na vašich datech. Rozpoznávání jazyka můžete použít dvěma způsoby:

Možnost vývoje	Description
Language Studio	Language Studio je webová platforma, která umožňuje vyzkoušet propojení entit s textovými příklady bez účtu Azure a vlastními daty při registraci. Další informace najdete na webu language studia nebo v rychlém startu pro jazykové studio.
Rozhraní REST API nebo klientská knihovna (Azure SDK)	Integrace rozpoznávání jazyka do aplikací pomocí rozhraní REST API nebo klientské knihovny dostupné v různých jazycích Další informace najdete v rychlém startu pro rozpoznávání jazyka.
Kontejner Dockeru	K místnímu nasazení této funkce použijte dostupný kontejner Dockeru. Tyto kontejnery Dockeru umožňují přiblížit službu vašim datům z důvodu dodržování předpisů, zabezpečení nebo z jiných provozních důvodů.

Určení způsobu zpracování dat (volitelné)

Určení modelu rozpoznávání jazyka

Ve výchozím nastavení bude rozpoznávání jazyka používat nejnovější dostupný model AI pro váš text. Můžete také nakonfigurovat požadavky rozhraní API tak, aby používaly konkrétní verzi modelu.

Jazyky zadávání

Při odesílání dokumentů, které mají být vyhodnoceny, se rozpoznávání jazyka pokusí zjistit, jestli byl text napsán v některém z podporovaných jazyků.

Pokud máte obsah vyjádřený méně často používaným jazykem, můžete vyzkoušet funkci Rozpoznávání jazyka a zjistit, jestli vrací kód. Odpověď pro jazyky, které nelze rozpoznat, je unknown.

Odesílání dat

Tip

K rozpoznávání jazyka můžete použít kontejner Dockeru, abyste mohli používat rozhraní API místně.

Analýza se provede po přijetí žádosti. Synchronní používání funkce rozpoznávání jazyka je bezstavové. Ve vašem účtu se neukládají žádná data a výsledky se okamžitě vrátí v odpovědi.

Při asynchronním použití této funkce jsou výsledky rozhraní API k dispozici po dobu 24 hodin od okamžiku, kdy byl požadavek přijat, a jsou uvedeny v odpovědi. Po uplynutí tohoto časového období se výsledky vyprázdní a už nejsou k dispozici pro načtení.

Získání výsledků rozpoznávání jazyka

Když získáte výsledky z rozpoznávání jazyka, můžete je streamovat do aplikace nebo uložit výstup do souboru v místním systému.

Rozpoznávání jazyka vrátí pro každý dokument, který odešlete, jeden převládající jazyk spolu s názvem ISO 639-1 , názvem čitelným pro člověka a skóre spolehlivosti. Kladné skóre 1 označuje nejvyšší možnou úroveň spolehlivosti analýzy.

Nejednoznačný obsah

V některých případech může být obtížné rozlišovat jazyky na základě vstupu. Pomocí parametru countryHint můžete zadat kód země/oblasti iso 3166-1 alfa-2 . Rozhraní API ve výchozím nastavení používá jako výchozí nápovědu pro zemi "USA". Pokud chcete toto chování odebrat, můžete tento parametr resetovat nastavením této hodnoty na prázdný řetězec countryHint = "" .

Například "komunikace" je společná pro angličtinu i francouzštinu, a pokud se zadá s omezeným kontextem, bude odpověď založena na nápovědě "USA" země/oblast. Pokud se ví, že text pochází z Francie, může být tato informace uvedena jako tip.

Vstup

{
    "documents": [
        {
            "id": "1",
            "text": "communication"
        },
        {
            "id": "2",
            "text": "communication",
            "countryHint": "fr"
        }
    ]
}

Model rozpoznávání jazyka teď obsahuje další kontext, který umožňuje lepší posouzení:

Výstup

{
    "documents":[
        {
            "detectedLanguage":{
                "confidenceScore":0.62,
                "iso6391Name":"en",
                "name":"English"
            },
            "id":"1",
            "warnings":[
                
            ]
        },
        {
            "detectedLanguage":{
                "confidenceScore":1.0,
                "iso6391Name":"fr",
                "name":"French"
            },
            "id":"2",
            "warnings":[
                
            ]
        }
    ],
    "errors":[
        
    ],
    "modelVersion":"2022-10-01"
}

Pokud analyzátor nemůže analyzovat vstup, vrátí (Unknown). Příkladem je odeslání textového řetězce, který se skládá výhradně z čísel.

{
    "documents": [
        {
            "id": "1",
            "detectedLanguage": {
                "name": "(Unknown)",
                "iso6391Name": "(Unknown)",
                "confidenceScore": 0.0
            },
            "warnings": []
        }
    ],
    "errors": [],
    "modelVersion": "2021-01-05"
}

Obsah ve smíšeném jazyce

Obsah ve smíšeném jazyce v rámci stejného dokumentu vrátí jazyk s největším zastoupením v obsahu, ale s nižším kladným hodnocením. Hodnocení odráží mezní sílu hodnocení. V následujícím příkladu je vstup směsicí angličtiny, španělštiny a francouzštiny. Analyzátor spočítá znaky v jednotlivých segmentech, aby určil převládající jazyk.