Progetti correlati per soluzioni di data mining
Si applica a: SQL Server 2019 e versioni precedenti di Analysis Services Azure Analysis Services Fabric/Power BI Premium
Importante
Il data mining è stato deprecato in SQL Server 2017 Analysis Services e ora è stato interrotto in SQL Server 2022 Analysis Services. La documentazione non viene aggiornata per le funzionalità deprecate e non più disponibili. Per altre informazioni, vedere Compatibilità con le versioni precedenti di Analysis Services.
Come minimo, per una soluzione di data mining è richiesto il progetto di data mining, in cui si definiscono origini dati, viste origine dati, strutture di data mining e modelli di data mining. Tuttavia, quando i modelli di data mining vengono utilizzati nei processi decisionali quotidiani, è importante che il data mining sia integrato con altre parti di una soluzione analitica predittiva, che può includere i seguenti processi e componenti:
Preparazione e selezione di dati e variabili. Include pulizia dei dati, gestione di metadati e integrazione di più origini dati, nonché la conversione, l'unione e il caricamento di dati in un data warehouse.
Report di analisi, presentazione di stime e controllo e rilevamento delle attività di data mining.
Utilizzo di modelli multidimensionali o tabulari per esplorare i risultati.
Perfezionamento della soluzione di data mining per supportare nuovi dati o modifiche nell'infrastruttura di supporto derivanti dall'analisi corrente.
In questo argomento vengono descritte le altre funzionalità di SQL Server 2017 che fanno spesso parte di una soluzione di analisi predittiva, per supportare i processi di preparazione e data mining dei dati o per supportare gli utenti fornendo strumenti per l'analisi e l'azione.
SQL Server Integration Services
Integration Services fornisce componenti e funzionalità necessari per le fasi di preparazione e training dei dati di un progetto di data mining. Sebbene sia possibile eseguire molte attività di pulizia o preparazione dei dati usando altri strumenti, ad esempio script, Integration Services offre numerosi vantaggi per il data mining:
Rappresenta le attività come parte di un flusso di lavoro che può essere ripetuto, automatizzato, ramificato ed esteso.
Viene fornito ampio supporto per il controllo e diverse modalità di acquisizione degli errori e registrazione degli eventi.
Oltre all'acquisizione della derivazione dei dati, è possibile monitorare le modifiche apportate ai dati per l'intera pipeline per la trasformazione dei dati.
È inoltre possibile integrare i flussi di lavoro SSIS con le funzionalità che supportano la funzionalità Change Data Capture di SQL Server.
Il data mining può essere incorporato nel flusso di lavoro di Integration Services per separare in modo intelligente i dati in ingresso in più tabelle. Ad esempio, è possibile utilizzare una query di stima per suddividere i nuovi clienti in gruppi diversi come destinazione di una campagna di mailing.
Gli elenchi seguenti forniscono collegamenti ai componenti di Integration Services più utilizzati per supportare il data mining.
Componenti del flusso di controllo
componenti Flusso di dati
SQL Server Reporting Services
Anche se Reporting Services in genere non è considerato un componente critico delle soluzioni di data mining, fornisce le funzionalità seguenti utili per la presentazione di soluzioni di data mining.
Integrazione di dati da più origini in report complessi. Creazione di query rispetto al contenuto del modello per gli analisti e di report che mostrano stime e tendenze per gli utenti finali.
Possibilità di creare un report che consenta agli utenti di eseguire direttamente le query su un modello di data mining esistente.
Integrazione con SQL Server Analysis Services, per supportare il drill-through e l'esplorazione delle dimensioni di data mining e dei cubi di data mining creati da modelli OLAP.
funzionalità di parametrizzazione e formattazione disponibili in Reporting Services.
Per ulteriori informazioni sull'utilizzo di Reporting Services con query DMX come origine dati, vedere i collegamenti seguenti:
Recuperare i dati da un modello di data mining (DMX) (SSRS)
Interfaccia utente di Progettazione query DMX in Analysis Services
Tipo di connessione di Analysis Services per DMX (SSRS)
Tuttavia, non è necessario utilizzare DMX come origine dati. I componenti di Integration Services per il data mining supportano anche il salvataggio dei risultati di una query di stima in un database relazionale. Se si dispone di un flusso di lavoro stabilito per l'aggiornamento dei modelli tramite Integration Services, la persistenza delle stime e altri risultati delle query di data mining per SQL Server consente di usare Power View per la creazione di report, nonché altri strumenti che non si interfacciano con DMX.
Per ulteriori informazioni sull'utilizzo di Reporting Services come livello di presentazione per le origini dati, vedere Integrating Reporting Services into Applications.
Data Quality Services
Data Quality Services (DQS) è una novità di SQL Server 2017. Poiché i problemi relativi ai dati possono rendere impossibile il data mining, i data mining che eseguono analisi ripetute o che lavorano in organizzazioni di grandi dimensioni con origini dati complesse devono trovare che un progetto di dati ben pianificato usando DQS è una soluzione più affidabile per il supporto del data mining rispetto alla pulizia ad hoc dei dati tramite Transact-SQL o altri script.
È opportuno considerare le funzionalità seguenti di DQS per la preparazione e l'integrità dei dati in una soluzione di data mining.
Processo di pulizia dei dati assistito da computer tramite cui vengono analizzati i dati di origine e proposte modifiche.
Con DQS è possibile confrontare i dati di origine con dati di riferimento basati su cloud gestiti e garantiti da provider di qualità dei dati.
In DQS è inoltre possibile analizzare dati di origine non elaborati e creare una Knowledge Base dai dati dell'utente. I dati elaborati sono suddivisi in categorie, quindi visualizzati all'utente per ulteriore elaborazione. Il processo di pulizia è interattivo, pertanto l'amministratore dei dati può approvare, rifiutare o modificare i dati proposti dal processo di pulizia assistito da computer.
Il risultato del processo è una Knowledge Base che è possibile migliorare continuamente o riutilizzare in più fasi di miglioramento dei dati.
Per altre informazioni, vedere Data Cleansing.
Processo di individuazione delle corrispondenze assistito da computer tramite cui vengono analizzati i dati di origine e proposte modifiche.
Per evitare la duplicazione dei dati, è possibile eseguire pulizie aggiuntive dell'origine dati per identificare corrispondenze esatte e approssimative. Questi componenti consentono di specificare le regole di corrispondenza e le soglie di applicazione.
L'individuazione delle corrispondenze di dati consente di rimuovere duplicati che possono costituire un problema per il data mining. La deduplicazione dei dati non è automatica; l'amministratore dei dati o un professionista IT deve verificare sia le informazioni della Knowledge Base sia le modifiche da apportare ai dati.
Dopo aver creato il progetto DQS iniziale, è possibile automatizzare molte delle attività usando i componenti di Integration Services.
Per altre informazioni, vedere Data Matching.
Durante l'esecuzione delle attività di pulizia e corrispondenza in un progetto di qualità dei dati, è possibile ottenere statistiche e informazioni in tempo reale sui dati elaborati da DQS. Il profiling dati consente di valutare a che livello la qualità dei dati è stata migliorata grazie alla pulizia o all'individuazione di corrispondenze dei dati e comprendere le modifiche apportate. Per ulteriori informazioni sul profiling dati e le notifiche, vedere Data Profiling and Notifications in DQS.
Una Knowledge Base che rappresenta tre tipi di conoscenza: conoscenza pronta all'uso, conoscenza generata dal server DQS e conoscenza generata dall'utente.
Una volta creata una Knowledge Base, è possibile utilizzarla in modo iterativo per pulire e verificare altri dati.
È possibile importare nuovi dati nella Knowledge Base da più origini, sia dati puliti da provider di riferimento o dati non elaborati corrispondenti ai dati esistenti nella Knowledge Base.
Per informazioni dettagliate sull'attività di pulizia in un progetto di qualità dei dati, vedere Pulizia dei dati (DQS).
È inoltre possibile applicare la conoscenza presente nella Knowledge Base ad altre origini, per eseguire la pulizia dei dati all'interno di altri processi. Con questa attività di pulizia dei dati è possibile individuare errori di immissione da parte dell'utente, danni subiti durante la trasmissione o l'archiviazione oppure definizioni del dizionario dei dati non corrispondenti.
Per altre informazioni, vedere DQS Knowledge Bases and Domains.
Ricerca full-text
In SQL Server la ricerca full-text consente ad applicazioni e utenti di eseguire query full-text su dati di tipo carattere in tabelle di SQL Server. Quando la ricerca full-text è abilitata, è possibile eseguire ricerche rispetto a dati di testo migliorati dalle regole specifiche della lingua relative alle diverse forme di una parola o di una frase. È inoltre possibile configurare condizioni di ricerca, ad esempio la distanza tra più termini, e utilizzare funzioni per vincolare i risultati restituiti in ordine di probabilità.
Poiché le query full-text sono una funzionalità fornita dal motore di SQL Server, è possibile creare query con parametri, generare set di dati personalizzati o vettori di termini tramite funzionalità di ricerca full-text in un'origine dati di testo e utilizzare tale origine nel data mining.
Per altre informazioni sull'interazione delle query full-text con l'indice full-text, vedere Esecuzione della query con ricerca full-text.
Un vantaggio dell'utilizzo delle funzionalità della ricerca full-text di SQL Server è la possibilità di sfruttare l'intelligenza linguistica contenuta nei word breaker e negli stemmer forniti per tutte le lingue di SQL Server. Tramite i word breaker e gli stemmer forniti, è possibile verificare che le parole siano separate utilizzando i caratteri appropriati per ogni lingua e che i sinonimi basati su segni diacritici o variazioni ortografiche (ad esempio i diversi formati numerici in giapponese) non siano trascurati.
Oltre all'intelligenza linguistica che regola i confini di parola, tramite gli stemmer per ogni lingua è possibile ridurre le varianti di una parola a un solo termine, in base alla conoscenza delle regole di coniugazioni e variazioni ortografiche di tale lingua. Le regole per l'analisi linguistica sono diverse per ogni lingua e sono sviluppate sulla base di ricerche estese su raccolte di testi autentici.
Per altre informazioni, vedere Configurare e gestire word breaker e stemmer per la ricerca.
La versione di una parola archiviata dopo l'indicizzazione full-text è un token in formato compresso. Le query successive nell'indice full-text generano più formati flessionali di una determinata parola basati sulle regole della lingua specifica, per garantire l'individuazione di tutte le corrispondenze probabili. Ad esempio, anche se il token archiviato potrebbe essere "eseguito", il motore di query cerca anche i termini "running", "run" e "runner", perché sono regolarmente derivate varianti simmetriche della parola radice "run".
È inoltre possibile creare e compilare un thesaurus dell'utente per archiviare sinonimi e migliorare i risultati della ricerca o la categorizzazione dei termini. Sviluppando un thesaurus basato sui dati full-text in uso, è possibile ampliare in modo efficace l'ambito delle query full-text su tali dati. Per altre informazioni, vedere Configurare e gestire i file del thesaurus per la ricerca full-text.
Tra i requisiti per l'utilizzo della ricerca full-text sono inclusi:
L'amministratore del database deve creare un indice full-text nella tabella.
È consentito un solo indice full-text per tabella.
Ogni colonna indicizzata deve disporre di una chiave univoca.
L'indicizzazione full-text è supportata solo nelle colonne con i tipi di dati char, varchar, nchar, nvarchar, text, ntext, image, xml, varbinary e varbinary(max). Se la colonna è di tipo varbinary, varbinary(max), image o xml, è necessario specificare l'estensione di file del documento indicizzabile (doc, pdf, xls e così via) in una colonna di tipo separata.
Indicizzazione semantica
La ricerca semantica è basata sulle funzionalità complete della ricerca full-text esistenti in SQL Server, ma utilizza funzionalità e statistiche aggiuntive per consentire scenari quali l'estrazione automatica di parole chiave e l'individuazione di documenti correlati. Ad esempio, è possibile utilizzare la ricerca semantica per compilare una tassonomia di base per un'organizzazione o per classificare una raccolta di documenti. Inoltre, è possibile utilizzare la combinazione di termini estratti e punteggi di somiglianza dei documenti nei modelli di clustering o albero delle decisioni.
Dopo avere abilitato correttamente la ricerca semantica e indicizzato le colonne di dati, è possibile utilizzare le funzioni fornite a livello nativo con l'indicizzazione semantica per eseguire le operazioni seguenti:
Restituire frasi chiave composte da una singola parola con il relativo punteggio.
Restituire documenti che contengono una frase chiave specificata.
Restituire punteggi di somiglianza e termini che contribuiscono al punteggio.
Per altre informazioni, vedere Trovare frasi chiave nei documenti mediante ricerca semantica e Trovare documenti simili e correlati tramite la ricerca semantica.
Per altre informazioni sugli oggetti di database che supportano l'indicizzazione semantica, vedere Abilitare la ricerca semantica in tabelle e colonne.
Tra i requisiti per l'utilizzo della ricerca semantica sono inclusi:
È necessario abilitare anche la ricerca full-text.
L'installazione dei componenti della ricerca semantica crea inoltre un database di sistema speciale che non è possibile rinominare, modificare o sostituire.
I documenti indicizzati tramite il servizio devono essere archiviati in SQL Server, in un qualsiasi oggetto di database supportato per l'indicizzazione full-text, incluse tabelle e viste indicizzate.
Non tutte le lingue full-text supportano l'indicizzazione semantica. Per un elenco di linguaggi supportati, vedere sys.fulltext_semantic_languages (Transact-SQL).