Condividi tramite


Dati di esempio (componenti aggiuntivi di data mining di SQL Server)

Creazione guidata Partizione Dati nella barra multifunzione di Data Mining

La procedura guidata Dati di esempio semplifica la divisione dei dati di origine in due set, uno per la compilazione (training) del modello e uno per il test del modello. Questa procedura guidata offre anche un'opzione per ricampionare i dati per creare un nuovo set di dati che rappresenti meglio la destinazione.

La creazione del tipo corretto di dati per il training e il test dei modelli è una parte importante del data mining, ma che può essere noiosa senza gli strumenti appropriati. L'assistente esegue il campionamento a strati per garantire che i set di training e di test siano ben bilanciati.

Campionamento casuale e sovracampionamento

. Il campionamento casuale è il modo migliore per garantire che i dati usati per il test di un modello rappresentino equamente i dati usati per la creazione del modello. È possibile campionare in modo casuale i dati archiviati in Excel o in un'origine dati esterna.

Se si usa l'opzione di campionamento casuale, la procedura guidata Dati di esempio crea automaticamente set di dati di training e test e li restituisce in fogli di lavoro di Excel separati per riferimento successivo.

Se i tuoi dati vengono archiviati in una cartella di lavoro di Excel e non in un'origine dati esterna, hai anche la possibilità di utilizzare il campionamento eccessivo. Con questa opzione, si specifica un valore di destinazione che potrebbe essere scarso nei dati e la procedura guidata raccoglierà un set bilanciato che include più del valore di destinazione. È possibile guidare la procedura guidata per ottenere una percentuale specifica o per creare un determinato numero di righe.

La procedura guidata Dati di esempio crea un nuovo foglio di lavoro contenente i dati di esempio nuovamente bilanciati se si usa l'opzione di sovracampionamento.

Utilizzo della Creazione guidata per dati di esempio

Per separare i dati in set di addestramento e di prova

  1. Nella barra multifunzione Data mining fare clic su Dati di esempio.

  2. Nella pagina Seleziona dati di origine specificare se i dati da partizionare si trovano in un intervallo o in una tabella di Excel o in un'origine dati esterna.

  3. Nella pagina Selezione tipo di campionamento specificare se si desidera creare set di dati di training e test tramite campionamento casuale o creare un nuovo set di dati tramite sovracampionamento.

    Annotazioni

    Se si usa un'origine dati esterna, è disponibile solo l'opzione di campionamento casuale. Se si desidera utilizzare il sovracampionamento con dati esterni, si possono importare i dati in una cartella di lavoro di Excel utilizzando una connessione dati di Excel e quindi utilizzare la procedura guidata Dati di esempio.

  4. Impostare le opzioni specifiche per il metodo di campionamento selezionato.

    • Per il campionamento casuale, specificare una percentuale dei dati originali da usare per il test o il numero totale di righe da usare nel set di dati di test.

    • Per effettuare l'overcampionamento, selezionare la colonna e il valore che si desidera mettere in evidenza. Specificare quindi il numero totale di righe nel nuovo set di dati e la percentuale di righe nel nuovo set di dati che deve includere il valore di destinazione.

      Il valore di destinazione per l'oversampling deve essere un valore discreto; non è possibile eseguire un oversampling dei dati numerici continui.

  5. Nella pagina Fine accettare i nomi predefiniti per i nuovi set di dati o digitare un nuovo nome.

    La procedura guidata crea nuovi fogli di lavoro per ogni set di dati.

La maggior parte delle procedure guidate nel client di data mining per Excel offre anche un'opzione per separare i dati in modo casuale in insiemi di addestramento e di test. Tuttavia, se si usano le procedure guidate, i dati rimangono nello stesso foglio di lavoro (o in un'altra origine dati) e le informazioni su se una determinata riga è un test case o un caso di training vengono archiviati internamente. Al contrario, quando si utilizza la guida Campione dati, i dati di test e di formazione vengono restituiti in fogli di lavoro separati per una facile consultazione.

Durante l'avanzamento della procedura guidata, sono disponibili queste opzioni:

Opzioni Commenti
Finestra di dialogo Seleziona dati di origine (client di data mining per Excel) Selezionare un intervallo o una tabella di Excel che contiene i dati. Se si desidera utilizzare dati esterni, i dati possono essere relazionali, ma devono essere inclusi in un'origine dati di Analysis Services. T
Pagina Selezione tipo di campionamento (Client di Data Mining per Excel) Se utilizzi un'origine dati esterna, sei limitato a usare l'opzione di campionamento casuale. Inoltre, è necessario specificare il numero di righe da creare nel set di dati finale, usando l'opzione Conteggio righe . Non è possibile specificare una percentuale dei dati di origine.
Pagina di campionamento casuale (Client di Data Mining per Excel) È possibile copiare una percentuale di righe dall'origine o un numero specifico di righe.
Pagina sovracampionamento (client di data mining per Excel) Stato di destinazione

Selezionare un valore dall'elenco sottorappresentato nel set di dati originale. Il sovracampionamento aumenterà la percentuale di righe di dati che includono questo stato.

Dimensioni campione

Selezionare il numero totale di righe da estrarre. Questo valore rappresenta le dimensioni del set di dati finale.

Altre opzioni di campionamento

Se le opzioni di campionamento in questa procedura guidata non soddisfano le proprie esigenze, è possibile usare la trasformazione di campionamento in SQL Server Integration Services (SSIS) per campionare righe da più origini dati.

Per ulteriori informazioni, vedere Trasformazione Campionamento delle righe e Trasformazione Campionamento in percentuale.

Vedere anche

Elenco di controllo della preparazione per il data mining