Condividi tramite


Trasformazione dei dati - Esempio e divisione

Importante

Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.

A partire dal 1° dicembre 2021 non sarà possibile creare nuove risorse dello studio di Azure Machine Learning (versione classica). Fino al 31 agosto 2024 sarà possibile continuare a usare le risorse dello studio di Azure Machine Learning (versione classica).

La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.

Questo articolo descrive i moduli in Machine Learning Studio (versione classica) che è possibile usare per partizionare o campionare i dati.

Nota

Si applica a: Machine Learning Studio (versione classica)

Nella finestra di progettazione sono disponibili moduli simili Azure Machine Learning trascinamento della selezione.

La suddivisione e il campionamento dei set di dati sono entrambe attività importanti nell'apprendimento automatico. Ad esempio, è pratica comune dividere i dati in set di training e set di test per facilitare la valutazione di un modello in un set di dati di controllo. Anche il campionamento è sempre più importante nell'era dei Big Data, per garantire una distribuzione equa delle classi nei dati di training. Il campionamento consente anche di assicurarsi di non elaborare più dati del necessario.

È possibile usare i Machine Learning Studio (versione classica) per personalizzare la modalità di suddivisione o di esempio dei set di dati:

  • Filtrare i dati di training in base a un attributo nei dati.
  • Eseguire il campionamentostratificato per dividere equamente la variabile di classe tra n numero di gruppi.
  • Dividere i dati di origine in un set di dati di training e di test usando un rapporto personalizzato.
  • Applicare espressioni regolari ai dati per filtrare i valori non validi.

Scelta dell'operazione giusta: divisione o campionamento

Machine Learning Studio (versione classica) fornisce due moduli che incapsulano le attività. I moduli sono simili, ma hanno usi diversi e forniscono funzionalità complementari. È probabile che entrambi i moduli verranno utilizzati in un esperimento per ottenere la quantità e la combinazione di dati giusta.

Successivamente, si confrontano il modulo Split Data (Divisione dati) e il modulo Partition and Sample (Partizione ed esempio) per visualizzare le attività per cui viene comunemente usato ogni modulo.

Usi del modulo Split Data (Dividi dati)

  • Dividere i dati in due gruppi. Usare il modulo Split Data (Dividi dati). Il modulo produce esattamente due divisioni dei dati. È possibile specificare la condizione in base alla quale i dati vengono suddivisi e la proporzione dei dati da inserire in ogni subset. La divisione dei dati salva sempre il subset di dati che non soddisfano le condizioni.
  • Allocare equamente i valori delle etichette ai set di dati. L'opzione per la stratificazione in una colonna specificata è supportata da entrambi i moduli. Tuttavia, se si vogliono creare due set di dati e si è principalmente interessati alla colonna etichetta, il modulo Split Data (Dividi dati) è una soluzione rapida.

Esempio di uso del modulo Split Data (Dividi dati)

Si supponga di aver importato un set di dati di dimensioni molto grandi da un file CSV. Il set di dati contiene dati demografici dei clienti. Si vogliono creare modelli diversi per i clienti in paesi diversi, quindi si decide di suddividere i dati usando il valore della Country-Region colonna. Ecco i passaggi da eseguire per completare questa attività:

  1. Aggiungere il modulo Split Data (Dividi dati) e quindi specificare un'espressione nel Country-Region campo. Il resto dei dati è disponibile nell'output secondario.
  2. Aggiungere un'altra istanza del modulo Split Data (Dividi dati).
  3. Ripetere i passaggi 1 e 2. Specificare un paese diverso nell'espressione per ogni iterazione.

Il modulo Split Data (Dividi dati) supporta sia le espressioni regolari per i dati di testo che le espressioni relative per i dati numerici.

Il modulo Split Data (Dividi dati) offre anche funzionalità sofisticate che è possibile usare per dividere set di dati specializzati. Utilizzare la funzionalità per creare modelli di raccomandazione e generare stime.

Usi del modulo Partition e Sample

  • Campionamento. Usare sempre il modulo Partition e Sample . Il modulo offre diversi metodi di campionamento personalizzabili, tra cui diverse opzioni per il campionamentostratificato.
  • Assegnare case a più gruppi. Usare le opzioni Assegna a foldo Pick Fold nel modulo Partition and Sample .
  • Restituisce solo un subset dei dati. Usare il modulo Partition and Sample . Il modulo fornisce il subset specificato nell'output primario. I dati rimanenti sono disponibili in un output secondario.
  • Ottenere solo le prime 2.000 righe di un set di dati. Usare il modulo Partition and Sample . Selezionare l'opzione Head . Ciò è particolarmente utile quando si testa un nuovo esperimento e si vogliono eseguire brevi versioni di valutazione di un flusso di lavoro.

Esempio di uso del modulo Partition e Sample

Il modulo Partition e Sample può generare più partizioni dei dati, non solo due. Allo stesso tempo, può eseguire diverse operazioni di campionamento.

Si supponga, ad esempio, di dover ottenere solo il 10% dei dati, assicurando al tempo stesso che la distribuzione dell'attributo di destinazione sia la stessa dei dati di origine. Ecco i passaggi da eseguire per completare questa attività:

  1. Aggiungere il modulo Partition e Sample .
  2. Scegliere la modalità campionamento e quindi specificare 10%.
  3. Selezionare l'opzione di campionamento stratificato e quindi selezionare la colonna che contiene l'attributo di destinazione.

Se non è necessario conservare tutti i dati, usare il modulo Partition and Sample (Partizione ed esempio). I dati rimanenti sono ancora presenti nell'area di lavoro, ma non devono essere elaborati ulteriormente come parte dell'esperimento.

Elenco dei moduli

Questa categoria include i moduli seguenti:

  • Partizione ed esempio: crea più partizioni di un set di dati in base al campionamento.
  • Dividi dati: partiziona le righe di un set di dati in due set distinti.

Vedi anche