Så här använder du språkidentifiering

Artikel
12/19/2023

Funktionen Språkidentifiering kan utvärdera text och returnera en språkidentifierare som anger vilket språk ett dokument har skrivits i.

Språkidentifiering är användbart för innehållslager som samlar in godtycklig text, där språket är okänt. Du kan parsa resultatet av den här analysen för att avgöra vilket språk som används i dokumentet. Svaret returnerar också en poäng mellan 0 och 1 som återspeglar modellens förtroende.

Funktionen Språkidentifiering kan identifiera en mängd olika språk, varianter, dialekter och vissa regionala eller kulturella språk.

Utvecklingsalternativ

Om du vill använda språkidentifiering skickar du ostrukturerad ostrukturerad text för analys och hanterar API-utdata i ditt program. Analysen utförs som den är, utan ytterligare anpassning till den modell som används för dina data. Det finns två sätt att använda språkidentifiering:

Utvecklingsalternativ	Description
Language Studio	Language Studio är en webbaserad plattform där du kan prova entitetslänkning med textexempel utan ett Azure-konto och dina egna data när du registrerar dig. Mer information finns på Language Studio-webbplatsen eller language studio-snabbstarten.
REST API eller klientbibliotek (Azure SDK)	Integrera språkidentifiering i dina program med hjälp av REST-API:et eller klientbiblioteket som är tillgängligt på flera olika språk. Mer information finns i snabbstarten för språkidentifiering.
Docker-container	Använd den tillgängliga Docker-containern för att distribuera den här funktionen lokalt. Med de här docker-containrarna kan du föra tjänsten närmare dina data av efterlevnads-, säkerhets- eller andra driftsskäl.

Fastställa hur data ska bearbetas (valfritt)

Ange språkidentifieringsmodellen

Som standard använder språkidentifiering den senaste tillgängliga AI-modellen i din text. Du kan också konfigurera dina API-begäranden så att de använder en specifik modellversion.

Indataspråk

När du skickar dokument som ska utvärderas försöker språkidentifieringen avgöra om texten har skrivits på något av de språk som stöds.

Om du har innehåll uttryckt på ett språk som används mindre ofta kan du prova funktionen Språkidentifiering för att se om det returnerar en kod. Svaret för språk som inte kan identifieras är unknown.

Skicka data

Tips

Du kan använda en Docker-containerför språkidentifiering, så att du kan använda API:et lokalt.

Analysen utförs när begäran har tagits emot. Användning av språkidentifieringsfunktionen är synkront tillståndslös. Inga data lagras i ditt konto och resultaten returneras omedelbart i svaret.

När du använder den här funktionen asynkront är API-resultaten tillgängliga i 24 timmar från det att begäran matades in och anges i svaret. Efter den här tidsperioden rensas resultaten och är inte längre tillgängliga för hämtning.

Hämta språkidentifieringsresultat

När du får resultat från språkidentifiering kan du strömma resultatet till ett program eller spara utdata i en fil i det lokala systemet.

Språkidentifiering returnerar ett dominerande språk för varje dokument som du skickar, tillsammans med namnet ISO 639-1 , ett läsbart namn och en konfidenspoäng. Ett positivt resultat på 1 anger den högsta möjliga konfidensnivån för analysen.

Tvetydig innehåll

I vissa fall kan det vara svårt att skilja språk baserat på indata. Du kan använda parametern countryHint för att ange en ISO 3166-1 alfa-2 lands- /regionkod. Som standard använder API:et "US" som standardtips för land. Om du vill ta bort det här beteendet kan du återställa den här parametern genom att ange värdet till tom sträng countryHint = "" .

Till exempel är "kommunikation" vanligt för både engelska och franska och om det ges med begränsad kontext baseras svaret på tipset "USA" land/region. Om det är fastställt att textens ursprung är franskt, så kan detta ges som ett tips.

Indata

{
    "documents": [
        {
            "id": "1",
            "text": "communication"
        },
        {
            "id": "2",
            "text": "communication",
            "countryHint": "fr"
        }
    ]
}

Språkidentifieringsmodellen har nu ytterligare kontext för att göra en bättre bedömning:

Resultat

{
    "documents":[
        {
            "detectedLanguage":{
                "confidenceScore":0.62,
                "iso6391Name":"en",
                "name":"English"
            },
            "id":"1",
            "warnings":[
                
            ]
        },
        {
            "detectedLanguage":{
                "confidenceScore":1.0,
                "iso6391Name":"fr",
                "name":"French"
            },
            "id":"2",
            "warnings":[
                
            ]
        }
    ],
    "errors":[
        
    ],
    "modelVersion":"2022-10-01"
}

Om analysatorn inte kan parsa indata returneras (Unknown). Ett exempel är om du skickar en textsträng som enbart består av siffror.

{
    "documents": [
        {
            "id": "1",
            "detectedLanguage": {
                "name": "(Unknown)",
                "iso6391Name": "(Unknown)",
                "confidenceScore": 0.0
            },
            "warnings": []
        }
    ],
    "errors": [],
    "modelVersion": "2021-01-05"
}

Innehåll med blandat språk

Innehåll med blandat språk i samma dokument returnerar språket med den största representationen i innehållet, men med lägre positiv klassificering. Omdömet återspeglar bedömningens marginella styrka. I följande exempel är indata en blandning av engelska, spanska och franska. Det dominerande språket fastställs genom att analysatorn räknar tecken i varje segment.

Indata

{
    "documents": [
        {
            "id": "1",
            "text": "Hello, I would like to take a class at your University. ¿Se ofrecen clases en español? Es mi primera lengua y más fácil para escribir. Que diriez-vous des cours en français?"
        }
    ]
}

Resultat

Resultatet består av det dominerande språket, med en poäng på mindre än 1,0, vilket indikerar en svagare konfidensnivå.

{
    "documents": [
        {
            "id": "1",
            "detectedLanguage": {
                "name": "Spanish",
                "iso6391Name": "es",
                "confidenceScore": 0.88
            },
            "warnings": []
        }
    ],
    "errors": [],
    "modelVersion": "2021-01-05"
}

Tjänst- och datagränser

Information om storleken och antalet begäranden som du kan skicka per minut och sekund finns i artikeln om tjänstbegränsningar .

Se även

Översikt över språkidentifiering

Dela via