Pulire i dati mediante le informazioni dei dati di riferimento (esterni)
In questo argomento viene descritto come pulire i dati utilizzando le informazioni dei provider di dati di riferimento. Mentre tutti i passaggi dell'esecuzione di un'attività di pulizia rimangono gli stessi per la pulizia dei dati mediante le informazioni dei provider di dati di riferimento come descritto in Pulizia dei dati mediante le informazioni interne di DQS, in questo argomento vengono fornite le informazioni specifiche della pulizia dei dati mediante il servizio dati di riferimento in Data Quality Services (DQS).
Quando in DQS si utilizza la funzionalità del servizio dati di riferimento per pulire i dati, il processo di pulizia di DQS invia i valori di dominio di cui è stato eseguito il mapping al provider del servizio dati di riferimento come richiesta batch. Il servizio dati di riferimento risponde con le informazioni seguenti:
Correzione suggerita
Confidenza
Informazioni aggiuntive sul dominio di cui è stato eseguito il mapping. I dati di riferimento possono inoltre standardizzare, analizzare o migliorare l'origine con dati aggiuntivi. Tali informazioni vengono fornite nei campi aggiuntivi della risposta.
Dopo avere ottenuto la risposta dal servizio dati di riferimento, durante l'attività di pulizia in DQS si verifica quanto segue:
In base ai valori Soglia di correzione automatica e Confidenza min specificati durante l'esecuzione del mapping dei domini con il servizio dati di riferimento, i valori di dominio vengono suggeriti o corretti automaticamente in base al livello di confidenza.
[!NOTA]
Durante la pulizia dei dati mediante le informazioni del servizio dati di riferimento vengono applicati i valori soglia specificati al momento dell'esecuzione del mapping di un dominio a un servizio dati di riferimento e non i valori specificati nella scheda Impostazioni generali della sezione Configurazione. Per informazioni sulla specifica dei valori soglia per la pulizia dei dati di riferimento, vedere il passaggio 9 in Collegare un dominio o un dominio composito ai dati di riferimento.
I valori di dominio vengono suddivisi nelle categorie seguenti: Suggerito, Nuovo, Non valido, Con correzione e Corretto.
I dati aggiuntivi vengono aggiunti all'origine e le informazioni sono disponibili insieme ai dati puliti per l'esportazione.
Contenuto dell'argomento
Prima di iniziare:
Prerequisiti
Sicurezza
Pulire i dati mediante le informazioni dei dati di riferimento
Prima di iniziare
Prerequisiti
È necessario avere eseguito il mapping dei domini richiesti in una Knowledge Base DQS al servizio dati di riferimento appropriato. La Knowledge Base deve inoltre contenere informazioni sul tipo di dati da pulire. Se si desidera pulire dati di origine che contengono indirizzi US, ad esempio, è necessario eseguire il mapping dei domini a un provider del servizio dati di riferimento che fornisce dati di alta qualità per gli indirizzi US. Per ulteriori informazioni, vedere Collegare un dominio o un dominio composito ai dati di riferimento.
Sicurezza
Autorizzazioni
Per eseguire la pulizia dei dati è necessario disporre del ruolo dqs_kb_editor o dqs_kb_operator nel database DQS_MAIN.
[Inizio pagina]
Pulire i dati mediante le informazioni dei dati di riferimento
Viene fatto riferimento allo stesso esempio di utilizzo dei domini dei quali è stato eseguito il mapping nell'argomento precedente, Collegare un dominio o un dominio composito ai dati di riferimento, con il servizio Melissa Data in Windows Azure Marketplace. Vengono utilizzati gli stessi domini per pulire alcuni indirizzi US di esempio. I passaggi per pulire i dati sono gli stessi di quelli descritti in Pulizia dei dati mediante le informazioni interne di DQS. Eventuali differenze verranno indicate durante il processo, laddove necessario.
Creare un progetto Data Quality e selezionare l'attività Pulizia. Vedere Creare un progetto Data Quality.
Nella pagina Mappa eseguire il mapping dei 4 domini seguenti con le colonne appropriate nei dati di origine: Riga indirizzo, Città, Stato e CAP. Fare clic su Avanti.
[!NOTA]
Poiché il mapping di tutti e 4 i domini è stato eseguito all'interno del dominio composito Verifica indirizzo, la pulizia dei dati verrà eseguita a livello di dominio composito e non a livello di singolo dominio.
Nella pagina Pulizia eseguire il processo di pulizia computerizzato facendo clic su Avvia. Al termine del processo di pulizia, fare clic su Avanti.
[!NOTA]
Nella pagina Pulisci vengono visualizzate le informazioni sui domini associati al servizio dati di riferimento nei due modi seguenti:
-
Messaggio visualizzato sotto il pulsante Avvia: “I domini <Dominio1>, <Dominio2>,… <DominioN> sono stati puliti mediante il provider del servizio dati di riferimento". Nell'esempio verrà visualizzato il messaggio seguente: "Il Dominio Verifica indirizzo è stato pulito mediante il provider del servizio dati di riferimento".
-
Icona visualizzata nell'area Profiler per i domini associati al provider del servizio dati di riferimento. Nell'esempio l'icona verrà visualizzata per il dominio composito Verifica indirizzo.
-
Verificare i valori di dominio nella pagina Gestisci e visualizza i risultati. Il servizio dati di riferimento può visualizzare più suggerimenti, se disponibili, per un valore a seconda del numero massimo di suggerimenti specificato nella casella Candidati suggeriti durante l'esecuzione del mapping del dominio al servizio dati di riferimento. Per l'indirizzo US seguente vengono visualizzati, ad esempio, due suggerimenti:
Valore originale
Valori suggeriti
Riga indirizzo
Città
Stato
CAP
1 msft way
Redmond
98052
Riga indirizzo
Città
Stato
CAP
1 Microsoft Way
Redmond
WA
98052
PO Box 1
Redmond
WA
98073
[!NOTA]
Per i domini compositi vengono evidenziati in un colore diverso anche i singoli domini corretti durante il processo di pulizia computerizzato. In questo caso, ad esempio, sono stati corretti i domini Riga indirizzo e Stato che pertanto vengono evidenziati in ciano.
Dopo avere verificato tutti i valori di dominio, fare clic su Avanti per esportare i dati.
Nella pagina Esporta si noterà che oltre alle informazioni normali dell'attività di pulizia per ogni dominio (Origine, Motivo, Confidenza e Stato), sono presenti informazioni aggiuntive fornite dal servizio dati di riferimento Melissa Data sui dati di indirizzo, ad esempio latitudine e longitudine dell'indirizzo, nome del comune, tipo di indirizzo (palazzo a molti piani, strada, ecc.) e così via.
Esportare i dati nella destinazione richiesta (SQL Server, CSV o Excel) e fare clic su Fine per chiudere il progetto.
Importante Se si utilizza la versione a 64 bit di Excel, non è possibile esportare i dati puliti in un file di Excel. È possibile eseguire l'esportazione solo in un database di SQL Server o in un file con estensione csv.
[Inizio pagina]