Condividi tramite


Rilevare le lingue

Importante

Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.

A partire dal 1° dicembre 2021 non sarà possibile creare nuove risorse dello studio di Azure Machine Learning (versione classica). Fino al 31 agosto 2024 sarà possibile continuare a usare le risorse dello studio di Azure Machine Learning (versione classica).

La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.

Rileva la lingua di ogni riga nel file di input

Categoria: Analisi del testo

Nota

Si applica a: Machine Learning Studio (versione classica)

Nella finestra di progettazione sono disponibili moduli simili Azure Machine Learning trascinamento della selezione.

Panoramica del modulo

Questo articolo descrive come usare il modulo Rileva lingue in Machine Learning Studio (versione classica) per analizzare l'input di testo e identificare la lingua associata a ogni record nell'input.

L'algoritmo di rilevamento della lingua può identificare molte lingue diverse. È sufficiente specificare la colonna stringa da analizzare e il numero totale di lingue da rilevare. L'algoritmo analizza ogni riga di testo e assegna un punteggio di probabilità per ogni lingua. La lingua nella prima colonna dei risultati è la lingua che ha ottenuto il punteggio più alto.

Come configurare Rileva lingue

  1. Aggiungere il set di dati contenente il testo da analizzare a un esperimento in Machine Learning Studio (versione classica). La colonna con il testo da analizzare deve essere di tipo stringa.

    Il datset non deve contenere una colonna etichetta. L'algoritmo di rilevamento della lingua funziona esclusivamente sulle funzionalità linguistiche delle lingue supportate.

    Se si importano nuovi dati, assicurarsi che i dati siano salvati nel formato UTF-8. Altri formati Unicode non sono supportati.

  2. Aggiungere il modulo Detect Languages (Rileva lingue) all'esperimento e connettere il set di dati con il testo per il rilevamento della lingua.

  3. Per Colonna di testo scegliere la colonna da analizzare.

  4. Per Limite superiore per il numero di lingue da rilevare, indicare il numero massimo di lingue da rilevare.

    L'impostazione di un limite superiore per il numero di lingue può migliorare le prestazioni.

  5. Eseguire l'esperimento.

Risultati

Il modulo Detect Languages restituisce un identificatore di lingua e un punteggio per ogni riga.

Ad esempio, la tabella seguente contiene un'analisi di esempio sui dati di test.

  • Le prime due colonne col1 e language label sono colonne passate dal set di dati di input. In questo esempio, poiché il set di dati di input è stato progettato per testare il modulo, la lingua prevista era già nota e viene specificata nella colonna label.

  • Le colonne rimanenti vengono generate dal modulo Rileva lingue. Se sono presenti corrispondenze di lingua equi-probabili, potrebbero essere elencate diverse lingue, con un punteggio per ognuna. In questo caso, il modulo stima una sola lingua per ogni riga, insieme al punteggio di probabilità per tale lingua.

    Se il modulo non riesce a rilevare una lingua con un punteggio sufficientemente elevato, viene restituito un risultato di (Sconosciuto) con un punteggio pari a 0. Tuttavia, i linguaggi supportati dal modulo possono cambiare nel tempo quando l'API viene aggiornata.

Col1 Etichetta lingua Lingua Col1 Lingua Iso6391 di Col1 Col1 Iso6391 Language Score
È stato un hotel straordinario con un personale descrittivo e un buon servizio Inglese Inglese en 100
Es war ein wunderbares Hotel mit freundlichem Personal und guter service Tedesco Tedesco de 100
C'est un lentezza hétel avec un personnel e un service de qualité Francese Francese fr 100
Det var et dejligt hotel med et venligt personale ogberg service Danese Danese nl 100
Va ser un magnòfic hotel amb un personal amable i bon servei Catalano Catalano ca 92.30769348
とても素敵なホテルで、スタッフは親切で、サービスもよかった Giapponese (Sconosciuto) 0
qu mebpa'mey naQ friendly QaQ chavmoH je Klingon Francese fr 77.5

Esempio

Per esempi di come viene usato il modulo Detect Languages in un esperimento, vedere il Azure AI Gallery:

  • Filtra i titoli dei film in base alla lingua: rileva la lingua usata nei nomi dei film e quindi usa l'identificatore della lingua per suddividere il set di dati in film in inglese e non in inglese.

Note tecniche

Per un'idea generale delle lingue che potenzialmente possono essere rilevate, vedere Bing Translator.

È possibile che siano rilevate molte più lingue Machine Learning attualmente supportate per l'analisi avanzata del testo. È consigliabile usare i risultati di Rileva lingue per filtrare i risultati inviati ad altri moduli che richiedono l'elaborazione specifica della lingua.

I servizi linguistici sottostanti vengono usati anche dal servizio Analisi del testo in Servizi cognitivi di Azure.

Input previsti

Nome Tipo Descrizione
Set di dati Tabella dati di input

Parametri del modulo

Nome Tipo Intervallo Facoltativo Predefinito Descrizione
Limite superiore per il numero di lingue da rilevare Integer [1;184] Necessario 1 Limite superiore per il numero di lingue da rilevare.
Colonna di testo ColumnSelection Necessario Nome o indice in base uno della colonna di testo.

Output

Nome Tipo Descrizione
Set di dati di risultati Tabella dati Risultato

Eccezioni

Eccezione Descrizione
Errore 0003 L'eccezione si verifica se uno o più input sono null o vuoti.
Errore 0010 L'eccezione si verifica se i nomi di colonna nei set di dati di input non corrispondono, mentre dovrebbero essere corrispondenti.
Errore 0016 L'eccezione si verifica se i tipi di colonna dei set di dati di input passati al modulo dovrebbero essere compatibili ma non lo sono.
Errore 0008 L'eccezione si verifica se il parametro non rientra nell'intervallo.

Per un elenco di errori specifici dei moduli di Studio (versione classica), vedere l'Machine Learning codici di errore.

Per un elenco delle eccezioni API, vedere l'Machine Learning di errore dell'API REST.

Vedi anche

Analisi del testo
Elenco moduli A-Z