Condividi tramite


Identificare righe di dati simili usando la trasformazione di raggruppamento fuzzy

Per aggiungere e configurare una trasformazione di Raggruppamento fuzzy, il pacchetto deve già includere almeno un'attività di Flusso di dati e un'origine.

Per implementare la trasformazione del Raggruppamento fuzzy in un flusso di dati

  1. In SQL Server Data Tools (SSDT) aprire il progetto di Integration Services che contiene il pacchetto desiderato.

  2. In Esplora soluzioni fare doppio clic sul pacchetto per aprirlo.

  3. Fare clic sulla scheda Flusso di dati e quindi, dalla Casella degli strumenti, trascinare la trasformazione di Raggruppamento Fuzzy nell'area di progettazione.

  4. Connetti la trasformazione Raggruppamento fuzzy al flusso di dati trascinando il connettore dall'origine dati o da una trasformazione precedente alla trasformazione Raggruppamento fuzzy.

  5. Fai doppio clic sulla trasformazione Raggruppamento fuzzy.

  6. Nella scheda Gestore di connessione della finestra di dialogo Editor trasformazione Raggruppamento fuzzy, selezionare un gestore di connessione OLE DB che si connette a un database di SQL Server.

    Annotazioni

    La trasformazione richiede una connessione a un database di SQL Server per creare tabelle e indici temporanei.

  7. Fare clic sulla scheda Colonne e, nell'elenco Colonne di input disponibili , selezionare la casella di controllo delle colonne di input da usare per identificare righe simili nel set di dati.

  8. Selezionare la casella di controllo nella colonna Pass-Through per identificare le colonne di input da passare all'output della trasformazione. Le colonne pass-through non sono incluse nel processo di identificazione delle righe duplicate.

    Annotazioni

    Le colonne di input utilizzate per il raggruppamento vengono selezionate automaticamente come colonne pass-through e non possono essere deselezionate durante il raggruppamento.

  9. Facoltativamente, aggiornare i nomi delle colonne di output nella colonna Alias di output .

  10. Facoltativamente, aggiornare i nomi delle colonne pulite nella colonna Group OutputAlias .

    Annotazioni

    I nomi predefiniti delle colonne sono i nomi delle colonne di input con un suffisso "_clean".

  11. Facoltativamente, aggiornare il tipo di corrispondenza da usare nella colonna Tipo di corrispondenza .

    Annotazioni

    Almeno una colonna deve usare la corrispondenza fuzzy.

  12. Specificare le colonne del livello di somiglianza minima nella colonna Somiglianza minima. Il valore deve essere compreso tra 0 e 1. Il valore più vicino è 1, più i valori nelle colonne di input devono essere per formare un gruppo. Una somiglianza minima pari a 1 indica una corrispondenza esatta.

  13. Facoltativamente, aggiornare i nomi delle colonne di somiglianza nella colonna Alias output somiglianza .

  14. Per specificare la gestione dei numeri nei valori dei dati, aggiornare i valori nella colonna Numerali .

  15. Per specificare come la trasformazione confronta i dati stringa in una colonna, modificare la selezione predefinita delle opzioni di Comparison Flags nella colonna.

  16. Fare clic sulla scheda Avanzate per modificare i nomi delle colonne aggiunte dalla trasformazione all'output per l'identificatore di riga univoco (_key_in), l'identificatore di riga duplicato (_key_out) e il valore di somiglianza (_score).

  17. Facoltativamente, regolare la soglia di somiglianza spostando la barra del dispositivo di scorrimento.

  18. Facoltativamente, deselezionare le caselle di controllo del delimitatore del token per ignorare i delimitatori nei dati.

  19. Fare clic su OK.

  20. Per salvare il pacchetto aggiornato, scegliere Salva elementi selezionati dal menu File .

Vedere anche

Trasformazione Raggruppamento Fuzzy
Trasformazioni di Integration Services
Percorsi di Integration Services
Attività Flusso di dati