Come usare il rilevamento della lingua

Articolo
12/19/2023

La funzionalità Rilevamento lingua può valutare il testo e restituire un identificatore di lingua che indica la lingua in cui è stato scritto un documento.

Il rilevamento della lingua è utile per archivi di contenuto che raccolgono testo arbitrario, in cui la lingua non è nota. È possibile analizzare i risultati di questa analisi per determinare la lingua usata nel documento di input. La risposta restituisce anche un punteggio compreso tra 0 e 1 che riflette l'attendibilità del modello.

La funzionalità Rilevamento lingua può rilevare un'ampia gamma di lingue, varianti e dialetti e alcune lingue regionali o culturali.

Opzioni di sviluppo

Per usare il rilevamento della lingua, inviare testo non strutturato non elaborato per l'analisi e gestire l'output dell'API nell'applicazione. L'analisi viene eseguita così come è, senza alcuna personalizzazione aggiuntiva per il modello usato nei dati. Esistono due modi per usare il rilevamento della lingua:

Opzione di sviluppo	Descrizione
Language Studio	Language Studio è una piattaforma basata sul Web che consente di provare a collegare entità con esempi di testo senza un account Azure e i propri dati quando si esegue l'iscrizione. Per altre informazioni, vedere il sito Web di Language Studio o la guida introduttiva di Language Studio.
API REST o libreria client (Azure SDK)	Integrare il rilevamento del linguaggio nelle applicazioni usando l'API REST o la libreria client disponibile in un'ampia gamma di lingue. Per altre informazioni, vedere la guida introduttiva al rilevamento della lingua.
Contenitore Docker	Usare il contenitore Docker disponibile per distribuire questa funzionalità locale. Questi contenitori docker consentono di avvicinare il servizio ai dati per la conformità, la sicurezza o altri motivi operativi.

Determinare come elaborare i dati (facoltativo)

Specificare il modello di rilevamento della lingua

Per impostazione predefinita, il rilevamento della lingua userà il modello di intelligenza artificiale più recente disponibile nel testo. È anche possibile configurare le richieste API per l'uso di una versione del modello specifica.

Lingue di input

Quando si inviano documenti da valutare, il rilevamento della lingua tenterà di determinare se il testo è stato scritto in una delle lingue supportate.

In caso di contenuto espresso in un lingua di uso meno frequente, si può provare la funzionalità Rilevamento lingua per verificare se viene restituito un codice. La risposta per le lingue non rilevabili è unknown.

Invio di dati

Suggerimento

È possibile usare un contenitore Dockerper il rilevamento della lingua, in modo da poter usare l'API locale.

Al momento della ricezione della richiesta viene eseguita l'analisi. L'uso della funzionalità di rilevamento della lingua sincrono è senza stato. Non vengono archiviati dati nell'account e i risultati vengono restituiti immediatamente nella risposta.

Quando si usa questa funzionalità in modo asincrono, i risultati dell'API sono disponibili per 24 ore dal momento in cui la richiesta è stata inserita e viene indicato nella risposta. Dopo questo periodo di tempo, i risultati vengono eliminati e non sono più disponibili per il recupero.

Recupero dei risultati del rilevamento della lingua

Quando si ottengono risultati dal rilevamento della lingua, è possibile trasmettere i risultati a un'applicazione o salvare l'output in un file nel sistema locale.

Il rilevamento della lingua restituirà una lingua predominante per ogni documento inviato, insieme al nome ISO 639-1 , a un nome leggibile e a un punteggio di attendibilità. Un punteggio positivo pari a 1 indica il livello di attendibilità più alto possibile dell'analisi.

Contenuto ambiguo

In alcuni casi potrebbe essere difficile distinguere le lingue in base all'input. È possibile usare il countryHint parametro per specificare un codice paese/area geografica ISO 3166-1 alfa-1 . Per impostazione predefinita, l'API usa "US" come hint per il paese predefinito. Per rimuovere questo comportamento, è possibile reimpostare questo parametro impostando questo valore su stringa countryHint = "" vuota.

Ad esempio, "comunicazione" è comune sia all'inglese che al francese e, se specificato con contesto limitato, la risposta sarà basata sull'hint "Us" paese/area geografica. Se l'origine del testo è nota come proveniente dalla Francia, è possibile specificare tale paese come suggerimento.

Input

{
    "documents": [
        {
            "id": "1",
            "text": "communication"
        },
        {
            "id": "2",
            "text": "communication",
            "countryHint": "fr"
        }
    ]
}

Il modello di rilevamento della lingua ha ora un contesto aggiuntivo per prendere un giudizio migliore:

Output

{
    "documents":[
        {
            "detectedLanguage":{
                "confidenceScore":0.62,
                "iso6391Name":"en",
                "name":"English"
            },
            "id":"1",
            "warnings":[
                
            ]
        },
        {
            "detectedLanguage":{
                "confidenceScore":1.0,
                "iso6391Name":"fr",
                "name":"French"
            },
            "id":"2",
            "warnings":[
                
            ]
        }
    ],
    "errors":[
        
    ],
    "modelVersion":"2022-10-01"
}

Se l'analizzatore non riesce ad analizzare l'input, restituisce (Unknown). Un esempio è se si invia una stringa di testo costituita esclusivamente da numeri.

{
    "documents": [
        {
            "id": "1",
            "detectedLanguage": {
                "name": "(Unknown)",
                "iso6391Name": "(Unknown)",
                "confidenceScore": 0.0
            },
            "warnings": []
        }
    ],
    "errors": [],
    "modelVersion": "2021-01-05"
}

Contenuto in più lingue

Se all'interno dello stesso documento è presente contenuto in più lingue, viene restituita la lingua più rappresentata, ma con una classificazione positiva inferiore, che riflette l'attendibilità marginale della valutazione. Nell'esempio seguente l'input è costituito da una combinazione di inglese, spagnolo e francese. L'analizzatore conta i caratteri in ogni segmento per determinare la lingua prevalente.