Group Categorical Values
Importante
Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.
A partire dal 1° dicembre 2021 non sarà possibile creare nuove risorse dello studio di Azure Machine Learning (versione classica). Fino al 31 agosto 2024 sarà possibile continuare a usare le risorse dello studio di Azure Machine Learning (versione classica).
- Vedere leinformazioni sullo spostamento di progetti di Machine Learning da ML Studio (versione classica) ad Azure Machine Learning.
- Altre informazioni sulle Azure Machine Learning.
La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.
Raggruppa i dati di più categorie in una nuova categoria
Categoria: Trasformazione/Manipolazione dei dati
Nota
Si applica a: Machine Learning Studio (versione classica)
Moduli di trascinamento della selezione simili sono disponibili nella finestra Azure Machine Learning progettazione.
Panoramica del modulo
Questo articolo descrive come usare il modulo Group Categorical Values in Machine Learning Studio (versione classica) per creare una tabella di ricerca sul posto.
L'uso tipico per il raggruppamento di valori categorici è unire più valori stringa in un singolo nuovo livello. Ad esempio, è possibile assegnare singoli codici postali in un'area a un singolo codice regionale o raggruppare più prodotti in una categoria.
Per usare questo modulo, digitare i valori di ricerca da usare ed eseguire il mapping dei valori esistenti ai valori di sostituzione. È possibile creare raggruppamenti solo per colonne categoriche, non per colonne di tipo numerico o colonne designate come etichette o caratteristiche.
Tutti i valori di colonna non mappati in modo esplicito a un nuovo livello vengono assegnati a un livello predefinito. Ad esempio, se non è stato mappato tutti i singoli codici postali, questi verranno raggruppati in un livello per i valori non mappati, che potrebbero essere denomi Sconosciuti.
Nota
È possibile creare un massimo di 20 nuovi livelli, incluso il livello predefinito. Se sono necessari più valori o è necessario definire i mapping in modo dinamico, è consigliabile usare uno script R personalizzato nel modulo Esegui script R . In caso contrario, SQL istruzioni nel modulo Applica SQL trasformazione.
Come usare i valori categorici di gruppo
È consigliabile preparare in anticipo l'elenco dei valori esistenti e delle nuove categorie. Per ogni categoria, è necessario preparare un nuovo nome di categoria e un elenco delimitato da virgole di valori da includere nella categoria.
Aggiungere il modulo Group Categorical Values all'esperimento. È possibile trovare il modulo in Trasformazione dati, Manipolazione.
Connessione un set di dati con i valori da trasformare.
Nel riquadro Proprietà di Group Categorical Values (Raggruppa valori categorici) usare il selettore di colonna per scegliere la colonna con i livelli da ridurre.
È consigliabile fare clic su BEGIN WITH eNO COLUMNS per iniziare e quindi aggiungere colonne in base al nome. In caso contrario, potrebbero essere aggiunte troppe colonne come candidati, causando un errore.
La colonna deve essere una colonna categorica. In caso contrario, aggiungere Modifica metadati a monte e modificare il tipo di colonna.
Assicurarsi di rimuovere dall'input tutte le colonne a cui non deve essere applicata la sostituzione di stringhe.
In Modalità di output indicare se si desidera eseguire l'output solo dei nuovi livelli oppure aggiungere le modifiche per visualizzare la colonna originale, con le sostituzioni affiancate.
Il valore predefinito , ResultOnly, mostra solo i nuovi valori. L'opzione Inplace sostituisce i valori di colonna esistenti con i nuovi livelli.
Per Nome livello predefinito digitare un valore stringa da usare come sostituzione per tutti i valori di cui non è stato eseguito il mapping in modo esplicito. È possibile usare un valore simile a "Sconosciuto" o "Predefinito".
Nota
Questo valore di livello predefinito viene applicato a tutti i valori di cui non è possibile eseguire il mapping. Se sono state accidentalmente incluse colonne di cui non si intende eseguire il mapping, il valore verrà applicato a tutti i valori nelle colonne. Verificare pertanto che la selezione della colonna sia accurata prima dell'elaborazione.
Per Nuovo numero di livelli digitare un numero che indica il numero totale di nuove categorie (livelli), incluso il livello predefinito per i valori non mappati.
In Nome del nuovo livello 1 specificare il nome del nuovo gruppo per la prima categoria.
Nella casella di testo immediatamente successiva, elenco delimitato da virgole di livelli precedenti da mappare al nuovo livello 1, digitare o incollare un elenco completo di tutti i valori di cui eseguire il mapping al nuovo livello. I caratteri jolly e le espressioni regolari non sono consentiti.
Continuare a digitare i nuovi nomi dei livelli e digitare o incollare i valori che devono essere mappati al nuovo livello.
È consigliabile salvare l'elenco di valori in un file separato mentre si sta lavorando. Se si modifica il numero di livelli, tutte le stringhe digitate in precedenza vengono rimosse ed è necessario ricominciare da zero.
Tuttavia, se si modifica un modulo salvato in precedenza, è possibile ripristinare le impostazioni originali.
Eseguire l'esperimento.
Risultati
Per visualizzare i risultati, fare clic con il pulsante destro del mouse sul modulo Group Categorical Values (Raggruppa valori categorici ), selezionare Results dataset (Set di dati risultati) e fare clic su Visualize (Visualizza).
Esempio
Per esempi di Machine Learning in azione, vedere l'Azure AI Gallery.
È anche possibile provare questo modulo manualmente, usando un piccolo set di dati con alcune variabili stringa che possono essere facilmente raggruppate, ad esempio il set di dati automobile price fornito in Machine Learning Studio (versione classica).
Si supponga di voler raggruppare le automobili nel set di dati dei prezzi automobile in base alle dimensioni del motore, usando il numero di cilindri. Anziché molte dimensioni del motore diverse, si creeranno i nuovi livelli,"big", "small" e "other", come indicato di seguito:
- Motori di grandi dimensioni: sei cilindri o più grandi
- Motori di piccole dimensioni: due o quattro cilindri
- Altro: qualsiasi altro elemento
- Aggiungere il modulo Seleziona colonne nel set di dati e selezionare solo la
num-of-cylinders
colonna. - Aggiungere il modulo Modifica metadati e modificare la
num-of-cylinders
colonna in Categorical. - Aggiungere il modulo Group Categorical Values (Raggruppa valori categorici ) e connettere il set di dati modificato.
- Per Nome livello predefinito digitare
other
. Non è necessario specificare valori per questo livello. - Per Nome del nuovo livello 1 digitare
big
. Nell'elenco dei livelli precedenti di cui eseguire il mapping al livello 1 incollare .six, eight, twelve
- Per Nome del nuovo livello 2 digitare
small
. Per i valori mappati, incollare .two, four
- Eseguire l'esperimento.
- Quando si visualizzano i risultati, si rende conto che il set di dati originale ha alcune dimensioni del motore dispari che non sono stati preso in considerazione, ad esempio
five
ethree
. Tutti questi elementi vengono mappati alother
livello.
Note tecniche
Questa sezione contiene informazioni dettagliate sull'implementazione, suggerimenti e risposte alle domande frequenti.
È possibile che venga visualizzato il messaggio di errore "La colonna con nome "<columnname>" non è in una categoria consentita."
Questo messaggio indica che la colonna selezionata non è una colonna categorica. È possibile contrassegnare la colonna come
Categorical
usando Modifica metadati oppure selezionare una colonna diversa contenente i valori di categoria appropriati.
Input previsti
Nome | Tipo | Descrizione |
---|---|---|
Set di dati | Tabella dati | Dati da raggruppare |
Parametri del modulo
Nome | Intervallo | Type | Predefinito | Descrizione |
---|---|---|---|---|
Colonne selezionate | any | ColumnSelection | CategoricalAll | Seleziona le colonne da raggruppare. |
Modalità output | any | OutputTo | ResultOnly | Specifica il modo in cui devono essere restituite le etichette di categoria. |
Default level name | any | string | Indica il livello predefinito da usare se nessun mapping corrisponde. | |
New number of levels | Elenco | Numero di gruppi | Specifica il numero di livelli dopo il raggruppamento dei valori, compreso il livello predefinito. |
Output
Nome | Tipo | Descrizione |
---|---|---|
Set di dati di risultati | Tabella dati | Dati raggruppati |