Componente partizionato e di esempio

Articolo
06/01/2023

Questo articolo descrive un componente nella finestra di progettazione di Azure Machine Learning.

Usare il componente Partition and Sample per eseguire il campionamento in un set di dati o per creare partizioni dal set di dati.

Il campionamento è uno strumento importante di Machine Learning perché consente di ridurre le dimensioni di un set di dati, mantenendo lo stesso rapporto di valori. Questo componente supporta diverse attività correlate importanti in Machine Learning:

Divisione dei dati in più sottosezioni della stessa dimensione.

È possibile usare le partizioni per la convalida incrociata o assegnare casi a gruppi casuali.
Separare i dati in gruppi e quindi usare i dati da un gruppo specifico.

Dopo aver assegnato in modo casuale i casi a gruppi diversi, potrebbe essere necessario modificare le funzionalità associate a un solo gruppo.
Campionamento.

È possibile estrarre una percentuale dei dati, applicare campionamento casuale o scegliere una colonna da usare per bilanciare il set di dati ed eseguire il campionamento stratificato sui relativi valori.
Creazione di un set di dati più piccolo per il test.

Se si dispone di molti dati, è possibile usare solo le prime n righe durante la configurazione della pipeline e quindi passare all'uso del set di dati completo quando si compila il modello. È anche possibile usare il campionamento per creare un set di dati più piccolo da usare nello sviluppo.

Configurare il componente

Questo componente supporta i metodi seguenti per dividere i dati in partizioni o per il campionamento. Scegliere prima il metodo e quindi impostare opzioni aggiuntive necessarie per il metodo.

Head
campionamento
Assegna alle piegazioni
Scegliere una sezione

Ottenere righe TOP N da un set di dati

Usare questa modalità per ottenere soltanto le prime n righe. Questa opzione è utile se si vuole testare una pipeline in un numero ridotto di righe e non è necessario che i dati vengano bilanciati o campionati in alcun modo.

Aggiungere il componente Partition and Sample alla pipeline nell'interfaccia e connettere il set di dati.
Modalità di partizione o esempio: impostare questa opzione su Head.
Numero di righe da selezionare: immettere il numero di righe da restituire.

Il numero di righe deve essere un intero non negativo. Se il numero di righe selezionate è maggiore del numero di righe nel set di dati, viene restituito l'intero set di dati.
Inviare la pipeline.

Il componente restituisce un singolo set di dati contenente solo il numero specificato di righe. Le righe vengono sempre lette dalla parte superiore del set di dati.

Creare un esempio di dati

Questa opzione supporta il campionamento casuale semplice o il campionamento casuale stratificato. È utile se si vuole creare un set di dati di esempio rappresentativo più piccolo per il test.

Aggiungere il componente Partition and Sample alla pipeline e connettere il set di dati.
Modalità di partizione o esempio: impostare questa opzione su Campionamento.
Frequenza di campionamento: immettere un valore compreso tra 0 e 1. questo valore specifica la percentuale di righe del set di dati di origine che deve essere incluso nel set di dati di output.

Ad esempio, se si vuole solo metà del set di dati originale, immettere 0.5 per indicare che la frequenza di campionamento deve essere del 50%.

Le righe del set di dati di input vengono inserite in modo casuale e selettivo nel set di dati di output, in base al rapporto specificato.
Inizializzazione casuale per il campionamento: facoltativamente, immettere un intero da usare come valore di inizializzazione.

Questa opzione è importante se si desidera che le righe vengano suddivise nello stesso modo ogni volta. Il valore predefinito è 0, ovvero un valore di inizializzazione generato in base all'orologio di sistema. Questo valore può causare risultati leggermente diversi ogni volta che si esegue la pipeline.
Suddivisione stratificata per il campionamento: selezionare questa opzione se è importante che le righe del set di dati siano suddivise in modo uniforme da una colonna chiave prima del campionamento.

Per La colonna chiave di stratificazione per il campionamento, selezionare una singola colonna strata da usare durante la divisione del set di dati. Le righe nel set di dati vengono quindi suddivise come segue:
1. Tutte le righe di input vengono raggruppate (stratificate) dai valori nella colonna strata specificata.
2. Le righe vengono mescolate all'interno di ogni gruppo.
3. Ogni gruppo viene aggiunto selettivamente al set di dati di output per soddisfare il rapporto specificato.
Inviare la pipeline.

Con questa opzione, il componente restituisce un singolo set di dati contenente un campionamento rappresentativo dei dati. La parte rimanente non sottoposta aampling del set di dati non viene restituita.

Suddividere i dati in partizioni

Usare questa opzione quando si vuole dividere il set di dati in subset dei dati. Questa opzione è utile anche quando si vuole creare un numero personalizzato di volte per la convalida incrociata o per suddividere le righe in diversi gruppi.

Aggiungere il componente Partition and Sample alla pipeline e connettere il set di dati.
Per La modalità di partizione o esempio selezionare Assegna a piega.
Usare la sostituzione nel partizionamento: selezionare questa opzione se si vuole che la riga di esempio venga inserita nel pool di righe per il potenziale riutilizzo. Di conseguenza, la stessa riga potrebbe essere assegnata a diverse piega.

Se non si usa sostituzione (opzione predefinita), la riga di esempio non viene inserita nel pool di righe per un potenziale riutilizzo. Di conseguenza, ogni riga può essere assegnata a una sola piega.
Suddivisione casuale: selezionare questa opzione se si desidera che le righe vengano assegnate in modo casuale alle piegature.

Se non si seleziona questa opzione, le righe vengono assegnate alle piegazioni tramite il metodo round robin.
Inizializzazione casuale: facoltativamente, immettere un intero da usare come valore di inizializzazione. Questa opzione è importante se si desidera che le righe vengano suddivise nello stesso modo ogni volta. In caso contrario, il valore predefinito 0 indica che verrà usato un valore di inizializzazione casuale.
Specificare il metodo partitioner: indicare la modalità di distribuzione dei dati a ogni partizione usando queste opzioni:
- Partizione uniformemente: usare questa opzione per inserire un numero uguale di righe in ogni partizione. Per specificare il numero di partizioni di output, immettere un numero intero nella casella Specificare il numero di piegature da suddividere in modo uniforme.
- Partizione con proporzioni personalizzate: usare questa opzione per specificare le dimensioni di ogni partizione come elenco delimitato da virgole.
  
  Si supponga, ad esempio, di voler creare tre partizioni. La prima partizione conterrà il 50% dei dati. Le due partizioni rimanenti contengono il 25% dei dati. Nella casella Elenco di proporzioni separate da virgole immettere questi numeri: .5, .25, .25.
  
  La somma di tutte le dimensioni delle partizioni deve essere aggiunta esattamente a 1.
  
  Se si immettono numeri che si aggiungono fino a meno di 1, viene creata una partizione aggiuntiva per contenere le righe rimanenti. Ad esempio, se si immettono i valori .2 e .3, viene creata una terza partizione per contenere il 50% rimanente di tutte le righe.
  
  Se si immettono numeri che si aggiungono a più di 1, viene generato un errore quando si esegue la pipeline.
Suddivisione stratificata: selezionare questa opzione se si desidera che le righe vengano stratificate durante la suddivisione e quindi scegliere la colonna strata.
Inviare la pipeline.

Con questa opzione, il componente restituisce più set di dati. I set di dati vengono partizionati in base alle regole specificate.

Usare i dati da una partizione predefinita

Usare questa opzione quando è stato diviso un set di dati in più partizioni e ora si vuole caricare ogni partizione a sua volta per un'ulteriore analisi o elaborazione.

Aggiungere il componente Partition and Sample alla pipeline.
Connettere il componente all'output di un'istanza precedente di Partition e Sample. Tale istanza deve avere usato l'opzione Assegna a piega per generare un numero di partizioni.
Modalità di partizione o esempio: selezionare Selezione piega.
Specificare la piega da cui eseguire l'esempio: selezionare una partizione da usare immettendone l'indice. Gli indici di partizione sono basati su 1. Ad esempio, se il set di dati è diviso in tre parti, le partizioni avranno gli indici 1, 2 e 3.

Se si immette un valore di indice non valido, viene generato un errore in fase di progettazione: "Errore 0018: il set di dati contiene dati non validi".

Oltre a raggruppare il set di dati in base alle piegazioni, è possibile separare il set di dati in due gruppi: una piega di destinazione e tutto il resto. A tale scopo, immettere l'indice di una singola piega e quindi selezionare l'opzione Seleziona complemento della piega selezionata per ottenere tutto, ma i dati nella piega specificata.
Se si utilizzano più partizioni, è necessario aggiungere altre istanze del componente Partition and Sample per gestire ogni partizione.

Ad esempio, il componente Partition and Sample nella seconda riga è impostato su Assegna a Piega e il componente nella terza riga è impostato su Pick Fold.
Inviare la pipeline.

Con questa opzione, il componente restituisce un singolo set di dati che contiene solo le righe assegnate a tale riduzione.

Nota

Non è possibile visualizzare direttamente le designazioni di piegatura. Sono presenti solo nei metadati.

Passaggi successivi

Vedere il set di componenti disponibili per Azure Machine Learning.

Share via