Condividi tramite


Lezione 5: Automazione della pulizia e della corrispondenza con SSIS

Nella lezione 1 è stata creata la knowledge base Suppliers e usata per pulire i dati nella lezione 2 e trovare le corrispondenze con i dati nella lezione 3 usando lo strumento DQS Client. In uno scenario reale, potrebbe essere necessario estrarre i dati da un'origine che DQS non supporta o si vuole automatizzare il processo di pulizia e corrispondenza senza dover usare lo strumento Client DQS. SQL Server Integration Services (SSIS) include componenti che è possibile usare per integrare i dati di varie origini eterogenee e un componente DQS Cleansing Transform per richiamare la funzionalità di pulizia esposta da DQS. Attualmente, DQS non espone la funzionalità di identificazione per SSIS, ma è possibile usare la Trasformazione di raggruppamento fuzzy per identificare i duplicati nei dati.

È possibile caricare i dati in MDS utilizzando la funzionalità di staging basata su entità. Quando si crea un'entità in MDS, le tabelle di staging e le stored procedure corrispondenti vengono create automaticamente. Ad esempio, quando è stata creata l'entità Supplier, la tabella stg.supplier_Leaf e la stored procedure stg.udp_Supplier_Leaf sono state create automaticamente. Si utilizzano le tabelle e le procedure di staging per creare, aggiornare ed eliminare i membri delle entità. In questa lezione vengono creati nuovi membri di entità per l'entità Supplier. Per caricare i dati nel server MDS, il pacchetto SSIS carica prima i dati nella tabella di staging stg.supplier_Leaf e quindi attiva la stored procedure associata stg.udp_Supplier_Leaf. Per altri dettagli, vedere Importazione di dati .

In questa lezione vengono eseguite le attività seguenti:

  1. Rimuovere i dati dei fornitori in MDS (se sono state passate quattro lezioni precedenti). Il pacchetto SSIS creato in questa lezione carica automaticamente i dati in MDS. In precedenza, i dati dei fornitori puliti e corrispondenti sono stati caricati nel server MDS manualmente usando il client DQS.

  2. Creare una visualizzazione della sottoscrizione nell'entità Supplier per esporre i dati nell'entità ad altre applicazioni. Questa azione crea una vista SQL che verrà verificata usando SQL Server Management Studio. Questa visualizzazione non verrà usata in questa versione dell'esercitazione.

  3. Creare ed eseguire un progetto SSIS usando SQL Server Data Tools. Il progetto usa la trasformazione Pulizia dati per inviare una richiesta di pulizia al server DQS. DQS non espone ancora la funzionalità di corrispondenza, quindi si userà la trasformazione Raggruppamento fuzzy per identificare i duplicati.

  4. Verificare che i dati vengano creati in MDS usando Master Data Manger.

  5. Esaminare i risultati del progetto di pulizia DQS creato dal pacchetto SSIS ed eseguire facoltativamente la pulizia interattiva per compilare ulteriormente la Knowledge Base.

Passaggio successivo

Attività 1 (prerequisito): rimozione dei dati dei fornitori in MDS