Trasformazione Ricerca termini
La trasformazione Ricerca termini rileva le corrispondenze tra i termini estratti dal testo in una colonna di input della trasformazione e quelli contenuti in una tabella di riferimento, quindi conta il numero delle occorrenze di un termine della tabella di ricerca nel set di dati di input e scrive tale numero nelle colonne di output della trasformazione, insieme al termine della tabella di riferimento. Questa trasformazione può essere utilizzata per creare un elenco di termini personalizzato basato sul testo di input, completo di statistiche sulla frequenza dei termini.
Prima di eseguire una ricerca la trasformazione Ricerca termini estrae le parole dal testo di una colonna di input utilizzando lo stesso procedimento utilizzato dalla trasformazione Estrazione termini:
Il testo viene suddiviso in frasi.
Le frasi vengono suddivise in parole.
Le parole vengono normalizzate.
Per personalizzare ulteriormente la determinazione delle corrispondenze, è possibile configurare la trasformazione Ricerca termini in modo da fare distinzione tra maiuscole e minuscole.
La trasformazione Ricerca termini esegue una ricerca e restituisce un valore utilizzando le regole seguenti:
Se la trasformazione è configurata in modo da fare distinzione tra maiuscole e minuscole, i termini che presentano combinazioni di maiuscole e minuscole non corrispondenti vengono ignorati. I termini studente e STUDENTE, ad esempio, vengono considerati come due parole diverse.
[!NOTA]
Una parola priva di maiuscole può corrispondere a una parola con iniziale maiuscola all'inizio di una frase. Le parole studente e Studente, ad esempio, vengono considerate corrispondenti quando Studente è la prima parola di una frase.
Se nella tabella di riferimento è presente la forma plurale del sostantivo o sintagma nominale, la ricerca individuerà solo la forma plurale del sostantivo o sintagma nominale. Tutte le istanze della parola studenti, ad esempio, vengono conteggiate separatamente da quelle della parola studente.
Se nella tabella di riferimento è presente solo la forma singolare della parola, sia la forma singolare che quella plurale della parola o frase verranno considerate corrispondenti alla forma singolare. Se ad esempio la tabella di riferimento contiene la parola studente e la trasformazione trova studente e studenti, entrambe le parole verranno conteggiate come corrispondenze del termine di ricerca studente.
Se il testo nella colonna di input è un sintagma nominale lemmatizzato, la normalizzazione interesserà solo l'ultima parola del sintagma nominale. La versione lemmatizzata di doctors appointments è ad esempio doctors appointment.
Quando un elemento di ricerca contiene termini che si sovrappongono nel set di riferimento, ovvero viene trovato un termine secondario in più di un record di riferimento, la trasformazione Ricerca termini restituisce solo un risultato della ricerca. Nell'esempio seguente viene illustrato il risultato ottenuto quando un elemento di ricerca contiene un termine secondario sovrapposto. Il termine secondario sovrapposto in questo caso è Windows, presente in due termini di riferimento. La trasformazione non restituisce tuttavia due risultati ma solo un termine di riferimento, ovvero Microsoft Windows. Il secondo termine di riferimento, Windows XP Home Edition SP1, non viene restituito.
Elemento |
Valore |
---|---|
Termine di input |
Microsoft Windows XP Home Edition SP |
Termini di riferimento |
Microsoft Windows, Windows XP Home Edition SP1 |
Output |
Microsoft Windows |
La trasformazione Ricerca termini può trovare anche sostantivi e sintagmi nominali contenenti caratteri speciali, che possono essere presenti anche nei dati della tabella di riferimento. I caratteri speciali sono i seguenti: %, @, &, $, #, *, :, ;, ., , , !, ?, <, >, +, =, ^, ~, |, \, /, (, ), [, ], {, }, “ e ‘.
La trasformazione Ricerca termini può utilizzare solo colonne con tipo di dati DT_WSTR o DT_NTEXT. Se una colonna contiene testo ma non ha uno di questi tipi di dati, sarà possibile utilizzare la trasformazione Conversione dati per aggiungere al flusso di dati una colonna con tipo di dati DT_WSTR o DT_NTEXT e copiare nella nuova colonna i valori della colonna originale. L'output della trasformazione Conversione dati può essere quindi utilizzato come input della trasformazione Ricerca termini. Per ulteriori informazioni, vedere Trasformazione Conversione dati.
Le colonne di input della trasformazione Ricerca termini includono la proprietà InputColumnType, che ne indica l'utilizzo. La proprietà InputColumnType può contenere i valori seguenti:
Il valore 0 indica che la colonna viene semplicemente passata all'output e non viene utilizzata nella ricerca.
Il valore 1 indica che la colonna viene utilizzata solo nella ricerca.
Il valore 2 indica che la colonna viene passata all'output e utilizzata anche nella ricerca.
Le colonne di output della trasformazione la cui proprietà InputColumnType è impostata su 0 o 2 includono la proprietà CustomLineageID, che contiene l'identificatore di derivazione assegnato alla colonna da un componente a monte nel flusso di dati.
La trasformazione Ricerca termini aggiunge all'output della trasformazione due colonne, che per impostazione predefinita sono denominate Term e Frequency. La colonna Term contiene un termine della tabella di ricerca, mentre la colonna Frequency contiene il numero di occorrenze di tale termine rilevato nel set di dati di input. Tali colonne non includono la proprietà CustomLineageID.
La tabella di ricerca deve essere una tabella di un database di SQL Server 2000, SQL Server o Access. Se l'output della trasformazione Estrazione termini viene salvato in una tabella, quest'ultima potrà essere utilizzata come tabella di riferimento, ma è possibile utilizzare anche altre tabelle. Il testo presente in file flat, cartelle di lavoro di Excel o altre origini deve essere importato in un database di SQL Server o di Access, prima di utilizzare la trasformazione Ricerca termini.
La trasformazione Ricerca termini utilizza una connessione OLE DB separata per connettersi alla tabella di riferimento. Per ulteriori informazioni, vedere Gestione connessione OLE DB.
La trasformazione Ricerca termini funziona in una modalità con pre-caching completo. In fase di esecuzione la trasformazione Ricerca termini legge i termini dalla tabella di riferimento e li archivia nella propria memoria privata, prima di elaborare le righe di input della trasformazione.
Poiché i termini in una riga di una colonna di input possono ripetersi, l'output della trasformazione Ricerca termini include in genere un numero di righe superiore rispetto all'input.
La trasformazione include un input e un output. Non supporta output degli errori.
Configurazione della trasformazione Ricerca termini
È possibile impostare le proprietà tramite Progettazione SSIS o a livello di programmazione.
Per ulteriori informazioni sulle proprietà che è possibile impostare nella finestra di dialogo Editor trasformazione Ricerca termini, fare clic su uno degli argomenti seguenti:
Editor trasformazione Ricerca termini (scheda Tabella di riferimento)
Editor trasformazione Ricerca termini (scheda Ricerca termini)
Per ulteriori informazioni sulle proprietà che è possibile impostare nella finestra di dialogo Editor avanzato o a livello di programmazione, fare clic su uno degli argomenti seguenti:
Per ulteriori informazioni sulla modalità di impostazione delle proprietà, vedere Procedura: Impostazione delle proprietà di un componente flusso di dati.
|