Attività Profiling dati
L'attività Profiling dati calcola i diversi profili che consentono di familiarizzare con un'origine dati e identificare i problemi nei dati che devono essere corretti.
È possibile utilizzare l'attività Profiling dati in un pacchetto di Integration Services per eseguire il profiling dei dati archiviati in SQL Server e identificare i possibili problemi relativi alla qualità dei dati.
Nota
In questo argomento vengono descritti i requisiti e le caratteristiche dell'attività Profiling dati. Per la procedura dettagliata per l'utilizzo dell'attività Profiling dati, vedere la sezione Profiling dei dati tramite l'attività Profiling dati e il relativo visualizzatore.
Importante |
---|
L'attività Profiling dati funziona solo con i dati archiviati in SQL Server 2000 o versioni successive. L'attività non funziona con origini dati di terze parti o basate su file. Per eseguire un pacchetto contenente l'attività Profiling dati, inoltre, è necessario utilizzare un account che disponga di autorizzazioni di lettura/scrittura per il database tempdb. |
Dopo avere utilizzato l'attività per calcolare i profili dei dati e salvare tali profili in un file, è possibile utilizzare il Visualizzatore profilo dati autonomo per esaminare l'output del profilo. Il Visualizzatore profilo dati supporta anche la funzione drill-down che consente di analizzare i problemi di qualità dei dati identificati nell'output del profilo. Per ulteriori informazioni, vedere Visualizzazione dell'output del profilo nel Visualizzatore profilo dati.
Importante |
---|
Il file di output potrebbe contenere dati sensibili relativi al database e i dati inclusi nel database. Per suggerimenti su come migliorare la protezione di questo file, vedere Controllo dell'accesso ai file utilizzati dai pacchetti. La funzionalità di drill-down, disponibile nel Visualizzatore profilo dati, consente di inviare query in tempo reale all'origine dati originale. |
Informazioni sui profili disponibili
L'attività Profiling dati consente di calcolare otto profili dati diversi. Cinque di questi profili analizzano colonne singole e i tre rimanenti analizzano più colonne o relazioni tra colonne e tabelle.
Nei cinque profili seguenti vengono analizzate colonne singole.
Profili che analizzano colonne singole |
Descrizione |
---|---|
Profilo di distribuzione della lunghezza di colonna |
Segnala tutte le singole lunghezze dei valori stringa nella colonna selezionata e la percentuale di righe nella tabella che ogni lunghezza rappresenta. Questo profilo consente di identificare problemi nei dati, ad esempio valori non validi. Si analizza, ad esempio, una colonna che contiene i codici degli stati degli Stati Uniti a due caratteri e si individuano valori con lunghezza superiore a due caratteri. |
Profilo del rapporto di valori di colonna Null |
Segnala la percentuale di valori Null nella colonna selezionata. Questo profilo consente di identificare problemi nei dati, ad esempio un rapporto di valori di colonna Null inaspettatamente elevato. Si analizza, ad esempio, una colonna contenente codici postali ZIP (Stati Uniti) e CAP e si individua una percentuale di codici mancanti inaspettatamente elevata. |
Profilo criteri di ricerca colonna |
Segnala un set di espressioni regolari che coprono la percentuale specificata di valori in una colonna stringa. Questo profilo consente di identificare problemi nei dati, ad esempio stringhe non valide. Può inoltre indicare espressioni regolari che possono essere utilizzate in futuro per convalidare nuovi valori. Un profilo di criteri di ricerca di una colonna contenente codici postali ZIP (Stati Uniti) potrebbe ad esempio produrre le seguenti espressioni regolari: \d{5}-\d{4}, \d{5} e \d{9}. Se si notano altre espressioni regolari, i dati probabilmente contengono valori non validi o in formato scorretto. |
Profilo di statistiche di colonna |
Segnala le statistiche, ad esempio la deviazione minima, massima, media e standard per le colonne numeriche e minima e massima per le colonne di tipo datetime. Questo profilo consente di identificare problemi nei dati, ad esempio date non valide. Si analizza, ad esempio, una colonna di date storiche e si individua una data massima nel futuro. |
Profilo di distribuzione dei valori di colonna |
Segnala tutti i valori distinct nella colonna selezionata e la percentuale di righe nella tabella che ogni valore rappresenta. Può inoltre segnalare valori che rappresentano più di una percentuale specificata di righe nella tabella. Questo profilo consente di identificare problemi nei dati, ad esempio un numero non corretto di valori distinct in una colonna. Si analizza, ad esempio, una colonna che si suppone contenga gli stati degli Stati Uniti e si individuano più di 50 valori distinct. |
I seguenti tre profili analizzano più colonne o relazioni tra colonne e tabelle.
Profili che consentono di analizzare più colonne |
Descrizione |
---|---|
Profilo di chiave candidata |
Segnala se una colonna o un set di colonne è una chiave o una chiave approssimativa, per la tabella selezionata. Questo profilo consente inoltre di identificare problemi nei dati, ad esempio valori duplicati in una potenziale colonna chiave. |
Profilo di dipendenza funzionale |
Segnala la misura in cui i valori in una colonna (la colonna dipendente) dipendono dai valori in un'altra colonna o in un set di colonne (la colonna determinante). Questo profilo consente inoltre di identificare problemi nei dati, ad esempio valori non validi. Si analizza, ad esempio, la dipendenza tra una colonna che contiene i codici postali ZIP (Stati Uniti) e una colonna che contiene gli stati degli Stati Uniti. Lo stesso codice postale ZIP deve essere sempre associato allo stesso stato, ma il profilo individua violazioni di questa dipendenza. |
Profilo di inclusione di valori |
Consente di calcolare la sovrapposizione nei valori tra due colonne o set di colonne. Questo profilo può determinare se una colonna o un set di colonne è adatto per fungere da chiave esterna tra le tabelle selezionate. Questo profilo consente inoltre di identificare problemi nei dati, ad esempio valori non validi. Si analizza, ad esempio, la colonna ProductID di una tabella in cui sono registrate le vendite e si individua che la colonna contiene valori che non sono presenti nella colonna ProductID della tabella che contiene i prodotti. |
Prerequisiti per un profilo valido
Un profilo non è valido se non vengono selezionate tabelle e colonne non vuote e colonne che contengono tipi di dati validi per il profilo.
Tipi di dati validi
Alcuni dei profili disponibili sono significativi solo per determinati tipi di dati. Ad esempio, il calcolo di un profilo di criteri di ricerca colonna per una colonna che contiene valori numerici o datetime non è significativo e quindi tale profilo non è valido.
Profilo |
Tipi di dati validi* |
---|---|
ColumnStatisticsProfile |
Colonne di tipo numerico o di tipo datetime (no mean e stddev per la colonna datetime) |
ColumnNullRatioProfile |
Tutte le colonne** |
ColumnValueDistributionProfile |
Colonne di tipo integer, tipo char e tipo datetime |
ColumnValueDistributionProfile |
Colonne di tipo char |
ColumnPatternProfile |
Colonne di tipo char |
CandidateKeyProfile |
Colonne di tipo integer, tipo char e tipo datetime |
FunctionalDependencyProfile |
Colonne di tipo integer, tipo char e tipo datetime |
InclusionProfile |
Colonne di tipo integer, tipo char e tipo datetime |
* Nella tabella precedente di tipi di dati validi, i tipi integer, char, datetime e numeric includono i seguenti tipi di dati specifici:
I tipi integer includono bit, tinyint, smallint, int e bigint.
I tipi carattere includono char, nchar, varchar e nvarchar,, ma non varchar(max) e nvarchar(max).
I tipi di data e ora includono datetime, smalldatetime e timestamp.
I tipi numerici includono i tipi integer (tranne bit), money, smallmoney, decimal, float, real e numeric.
* * I tipi image, text, xml, udte variant non sono supportati per profili diversi dal profilo del rapporto di valori di colonna Null.
Tabelle e colonne valide
Se la tabella o la colonna è vuota, l'attività Profiling dati esegue le seguenti azioni:
Quando la tabella o la vista selezionata è vuota, l'attività Profiling dati non calcola i profili.
Quando tutti i valori nella colonna selezionata sono Null, l'attività Profiling dati calcola solo il profilo del rapporto di valori di colonna Null. L'attività non calcola il profilo della distribuzione della lunghezza di colonna, il profilo criteri di ricerca colonna, il profilo di statistiche di colonna o il profilo di distribuzione dei valori di colonna.
Caratteristiche dell'attività Profiling dati
L'attività Profiling dati presenta le seguenti opzioni di configurazione di facile utilizzo:
Colonne jolly Quando si configura una richiesta di profilo, l'attività accetta il carattere jolly (*) al posto del nome di colonna. In questo modo viene semplificata la configurazione e diventa più facile individuare le caratteristiche dei dati non noti. Quando viene eseguita l'attività, è possibile analizzare ciascuna colonna che presenta un tipo di dati adatto.
Profilo rapido È possibile selezionare Profilo rapido per configurare rapidamente l'attività. Un profilo rapido analizza una tabella o una vista utilizzando tutti i profili e le impostazioni predefiniti.
Messaggi di registrazione personalizzati disponibili nell'attività Profiling dati
Nella tabella seguente sono elencate le voci di log personalizzate disponibili per l'attività Profiling dati. Per ulteriori informazioni, vedere Implementazione della registrazione nei pacchetti e Messaggi personalizzati per la registrazione.
Voce di log |
Descrizione |
---|---|
DataProfilingTaskTrace |
Fornisce informazioni descrittive sullo stato dell'attività. I messaggi includono le informazioni seguenti:
|
Informazioni sull'output e il relativo schema
L'attività Profiling dati restituisce i profili selezionati in formato XML strutturato in base allo schema DataProfile.xsd. È possibile specificare se questo output XML è salvato in un file o in una variabile del pacchetto. È possibile visualizzare questo schema online all'indirizzo https://schemas.microsoft.com/sqlserver/2008/DataDebugger/. Dalla pagina Web, è possibile salvare una copia locale dello schema. È quindi possibile visualizzare la copia locale dello schema in Visual Studio Microsoft o in un altro editor di schemi, in un editor di XML o in un editor di testo ad esempio Blocco note.
Questo schema per informazioni sulla qualità dei dati può essere utile per:
Scambio delle informazioni sulla qualità di dati all'interno delle organizzazioni e tra organizzazioni diverse.
Compilazione di strumenti personalizzati da utilizzare con le informazioni sulla qualità dei dati.
Lo spazio dei nomi di destinazione è identificato nello schema come https://schemas.microsoft.com/sqlserver/2008/DataDebugger/.
Utilizzo dell'output nel flusso di lavoro condizionale di un pacchetto
I componenti di analisi dei dati non includono la funzionalità predefinita per implementare la logica condizionale nel flusso di lavoro del pacchetto Integration Services basata sull'output dell'attività Profiling dati. È tuttavia facile aggiungere questa logica con una programmazione minima in un'attività Script. Con questo codice verrebbe eseguita una query XPath sull'output XML e quindi il risultato verrebbe salvato in una variabile del pacchetto. I vincoli di precedenza che collegano l'attività Script alle attività successive possono utilizzare un'espressione per determinare il flusso di lavoro. Ad esempio, l'attività Script rileva che la percentuale di valori Null in una colonna supera una determinata soglia. Quando questa condizione è vera, potrebbe essere necessario interrompere il pacchetto e risolvere il problema prima di continuare.
Configurazione dell'attività Profiling dati
Configurare l'attività Profiling dati utilizzando Editor attività Profiling dati. L'editor è composto da due pagine:
Pagina Generale
Nella pagina Generale, viene specificato il file di output o la variabile. È inoltre possibile selezionare Profilo rapido per configurare rapidamente l'attività per il calcolo dei profili utilizzando le impostazioni predefinite. Per ulteriori informazioni, vedere Form profilo rapido singola tabella (Attività Profiling dati).Pagina Richieste del profilo
Nella pagina Richieste del profilo, specificare l'origine dei dati e selezionare e configurare i profili dei dati che si desidera calcolare. Per ulteriori informazioni sui diversi profili che è possibile configurare, consultare gli argomenti seguenti:Opzioni di Richiesta profilo Chiave candidata (Attività Profiling dati)
Opzioni di Richiesta profilo Distribuzione lunghezze di colonna (Attività Profiling dati)
Opzioni di Richiesta profilo Rapporto di valori Null nella colonna (Attività Profiling dati)
Opzioni di Richiesta profilo Criteri di ricerca colonna (Attività Profiling dati)
Opzioni di Richiesta profilo Statistiche di colonna (Attività Profiling dati)
Opzioni di Richiesta profilo Distribuzione valori di colonna (Attività Profiling dati)
Opzioni di Richiesta profilo Dipendenza funzionale (Attività Profiling dati)
Opzioni di Richiesta profilo Inclusione valore (Attività Profiling dati)
|