Taaldetectie gebruiken

Artikel
12/19/2023

De functie Taaldetectie kan tekst evalueren en een taal-id retourneren die aangeeft in welke taal een document is geschreven.

Taaldetectie is handig voor inhoudsarchieven die willekeurige tekst verzamelen, waarbij de taal onbekend is. U kunt de resultaten van deze analyse parseren om te bepalen welke taal wordt gebruikt in het ingevoerde document. Het antwoord retourneert ook een score tussen 0 en 1 die het vertrouwen van het model weerspiegelt.

Met de functie Taaldetectie kunt u een breed scala aan talen, varianten, dialecten en bepaalde regionale of culturele talen detecteren.

Ontwikkelingsopties

Als u taaldetectie wilt gebruiken, verzendt u onbewerkte ongestructureerde tekst voor analyse en verwerkt u de API-uitvoer in uw toepassing. Analyse wordt uitgevoerd zoals het is, zonder extra aanpassingen aan het model dat voor uw gegevens wordt gebruikt. Er zijn twee manieren om taaldetectie te gebruiken:

Ontwikkelingsoptie	Beschrijving
Taalstudio	Language Studio is een webplatform waarmee u entiteitskoppelingen kunt proberen met tekstvoorbeelden zonder een Azure-account en uw eigen gegevens wanneer u zich registreert. Zie de Language Studio-website of de quickstart voor Language Studio voor meer informatie.
REST API of clientbibliotheek (Azure SDK)	Integreer taaldetectie in uw toepassingen met behulp van de REST API of de clientbibliotheek die beschikbaar is in verschillende talen. Zie de snelstart voor taaldetectie voor meer informatie.
Docker-container	Gebruik de beschikbare Docker-container om deze functie on-premises te implementeren. Met deze Docker-containers kunt u de service dichter bij uw gegevens brengen vanwege naleving, beveiliging of andere operationele redenen.

Bepalen hoe de gegevens moeten worden verwerkt (optioneel)

Het taaldetectiemodel opgeven

Standaard wordt voor taaldetectie het meest recente AI-model gebruikt voor uw tekst. U kunt uw API-aanvragen ook configureren voor het gebruik van een specifieke modelversie.

Invoertalen

Wanneer u documenten verzendt die moeten worden geëvalueerd, probeert taaldetectie te bepalen of de tekst in een van de ondersteunde talen is geschreven.

Als er inhoud in een minder vaak gebruikte taal wordt weergegeven, kunt u de functie Taaldetectie proberen om te zien of er een code wordt geretourneerd. Het antwoord voor talen dat niet kan worden gedetecteerd, is unknown.

Gegevens verzenden

Tip

U kunt een Docker-containergebruiken voor taaldetectie, zodat u de API on-premises kunt gebruiken.

Analyse wordt uitgevoerd na ontvangst van de aanvraag. Het synchroon gebruiken van de functie voor taaldetectie is staatloos. Er worden geen gegevens in uw account opgeslagen en de resultaten worden onmiddellijk in het antwoord geretourneerd.

Wanneer u deze functie asynchroon gebruikt, zijn de API-resultaten 24 uur beschikbaar vanaf het moment dat de aanvraag is opgenomen en worden ze aangegeven in het antwoord. Na deze periode worden de resultaten opgeschoond en kunnen ze niet meer worden opgehaald.

Resultaten van taaldetectie ophalen

Wanneer u resultaten van taaldetectie krijgt, kunt u de resultaten streamen naar een toepassing of de uitvoer opslaan in een bestand op het lokale systeem.

Taaldetectie retourneert één overheersende taal voor elk document dat u indient, samen met de ISO 639-1-naam , een door mensen leesbare naam en een betrouwbaarheidsscore. Een positieve score van 1 geeft het hoogst mogelijke betrouwbaarheidsniveau van de analyse aan.

Niet-eenduidige inhoud

In sommige gevallen kan het lastig zijn om talen ondubbelzinnig te karakteriseren op basis van de invoer. U kunt de countryHint parameter gebruiken om een iso 3166-1 alfa-2 land- /regiocode op te geven. Standaard gebruikt de API 'US' als de standaardlandhint. Als u dit gedrag wilt verwijderen, kunt u deze parameter opnieuw instellen door deze waarde in te stellen op lege tekenreeks countryHint = "" .

'communicatie' is bijvoorbeeld gebruikelijk voor zowel Engels als Frans en als deze wordt gegeven met beperkte context, wordt het antwoord gebaseerd op de hint voor het land/de regio 'VS'. Als de tekst uit Frankrijk afkomstig is, kan dat als hint worden gegeven.

Invoer

{
    "documents": [
        {
            "id": "1",
            "text": "communication"
        },
        {
            "id": "2",
            "text": "communication",
            "countryHint": "fr"
        }
    ]
}

Het taaldetectiemodel heeft nu extra context om een beter oordeel te vellen:

Uitvoer

{
    "documents":[
        {
            "detectedLanguage":{
                "confidenceScore":0.62,
                "iso6391Name":"en",
                "name":"English"
            },
            "id":"1",
            "warnings":[
                
            ]
        },
        {
            "detectedLanguage":{
                "confidenceScore":1.0,
                "iso6391Name":"fr",
                "name":"French"
            },
            "id":"2",
            "warnings":[
                
            ]
        }
    ],
    "errors":[
        
    ],
    "modelVersion":"2022-10-01"
}

Als de analysefunctie de invoer niet kan parseren, wordt (Unknown)geretourneerd. Een voorbeeld hiervan is als u een tekenreeks verzendt die alleen uit getallen bestaat.

{
    "documents": [
        {
            "id": "1",
            "detectedLanguage": {
                "name": "(Unknown)",
                "iso6391Name": "(Unknown)",
                "confidenceScore": 0.0
            },
            "warnings": []
        }
    ],
    "errors": [],
    "modelVersion": "2021-01-05"
}

Inhoud in gemengde taal

Inhoud in gemengde talen binnen hetzelfde document retourneert de taal met de grootste weergave in de inhoud, maar met een lagere positieve classificatie. De classificatie weerspiegelt de marginale sterkte van de evaluatie. De invoer in het volgende voorbeeld is een combinatie van Engels, Spaans en Frans. De analyzer telt tekens in elk segment om te bepalen van de overheersende taal.