Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Aplica-se a:SQL Server
SSIS Integration Runtime em Azure Data Factory
A transformação de Extração de Termos extrai termos do texto numa coluna de entrada de transformação e depois escreve os termos numa coluna de saída de transformação. A transformação funciona apenas com texto em inglês e utiliza o seu próprio dicionário de inglês e informação linguística sobre o inglês.
Pode usar a transformação de Extração de Termos para descobrir o conteúdo de um conjunto de dados. Por exemplo, texto que contém mensagens de e-mail pode fornecer feedback útil sobre produtos, pelo que pode usar a transformação de Extração de Termos para extrair os tópicos de discussão nas mensagens, como forma de analisar o feedback.
Termos e Tipos de Dados Extraídos
A transformação de Extração de Termos pode extrair apenas substantivos, apenas sintagmas nominais, ou tanto substantivos como fases substantivas. Um substantivo é um único substantivo; Um sintagma nominal é pelo menos duas palavras, das quais uma é substantivo e a outra é substantivo ou adjetivo. Por exemplo, se a transformação usar a opção apenas de substantivos, extrai termos como bicicleta e paisagem; se a transformação usar a opção do sintagma nominal, extrai termos como nova bicicleta azul, capacete de bicicleta e bicicletas embaladas.
Artigos e pronomes não são extraídos. Por exemplo, a transformação de Extração de Termos extrai o termo bicicleta do texto the bicycle, my bicycle e that bicycle.
A transformação de Extração de Termos gera uma pontuação para cada termo que extrai. A pontuação pode ser um valor TFIDF ou a frequência bruta, ou seja, o número de vezes que o termo normalizado aparece na entrada. Em qualquer dos casos, a pontuação é representada por um número real maior que 0. Por exemplo, a pontuação TFIDF pode ter o valor 0,5, e a frequência seria um valor como 1,0 ou 2,0.
A saída da transformação de Extração de Termos inclui apenas duas colunas. Uma coluna contém os termos extraídos e a outra coluna contém a pontuação. Os nomes padrão das colunas são Termo e Pontuação. Como a coluna de texto na entrada pode conter vários termos, a saída da transformação de Extração de Termos normalmente tem mais linhas do que a entrada.
Se os termos extraídos forem escritos numa tabela, podem ser usados por outras transformações de consulta, como a Pesquisa de Termos, a Pesquisa Fuzzy e a transformação de Consulta.
A transformação de Extração de Termos só pode funcionar com texto numa coluna que tenha o tipo de dado DT_WSTR ou DT_NTEXT. Se uma coluna contiver texto mas não tiver um destes tipos de dados, a transformação de Conversão de Dados pode ser usada para adicionar uma coluna com o tipo de dado DT_WSTR ou DT_NTEXT ao fluxo de dados e copiar os valores das colunas para a nova coluna. A saída da transformação de Conversão de Dados pode então ser usada como entrada para a transformação de Extração de Termos. Para obter mais informações, consulte Transformação de Conversão de Dados.
Termos de Exclusão
Opcionalmente, a transformação de Extração de Termos pode referenciar uma coluna numa tabela que contém termos de exclusão, ou seja, termos que a transformação deve omitir quando extrai termos de um conjunto de dados. Isto é útil quando um conjunto de termos já foi identificado como inconsequente num determinado negócio e indústria, normalmente porque o termo ocorre com tanta frequência que se torna uma palavra de ruído. Por exemplo, ao extrair termos de um conjunto de dados que contém informações de apoio ao cliente sobre uma determinada marca de carros, o próprio nome da marca pode ser excluído porque é mencionado com demasiada frequência para ter significado. Portanto, os valores na lista de exclusão devem ser personalizados para o conjunto de dados com que está a trabalhar.
Quando se adiciona um termo à lista de exclusão, todos os termos — palavras ou sintagmas nominais — que contêm o termo também são excluídos. Por exemplo, se a lista de exclusão incluir a palavra data, então todos os termos que contêm essa palavra, como data, data mining, data integrity e data validation, também serão excluídos. Se quiser excluir apenas compostos que contenham a palavra data, deve adicionar explicitamente esses termos compostos à lista de exclusão. Por exemplo, se quiser extrair incidências de dados, mas excluir a validação de dados, adicionaria validação de dados à lista de exclusão e garantiria que esses dados fossem removidos dessa lista.
A tabela de referência deve ser uma tabela num SQL Server ou numa base de dados Access. A transformação de Extração de Termos utiliza uma ligação OLE DB separada para se ligar à tabela de referência. Para obter mais informações, consulte Gerenciador de conexões OLE DB.
A transformação de Extração de Termos funciona em modo totalmente pré-cacheado. Em tempo de execução, a transformação de Extração de Termos lê os termos de exclusão da tabela de referência e armazena-os na sua memória privada antes de processar quaisquer linhas de entrada da transformação.
Extração de Termos do Texto
Para extrair termos do texto, a transformação de Extração de Termos executa as seguintes tarefas.
Identificação de Palavras
Primeiro, a transformação de Extração de Termos identifica palavras realizando as seguintes tarefas:
Separar texto em palavras usando espaços, quebras de linha e outros terminadores de palavras na língua inglesa. Por exemplo, sinais de pontuação como ? e : são caracteres separadores de palavras.
Preservar palavras ligadas por hífens ou sublinhados. Por exemplo, as palavras com proteção contra cópia e apenas leitura permanecem numa palavra.
Manter intactos os acrónimos que incluem períodos. Por exemplo, a A.B.C Company seria tokenizada como ABC and Company.
Divisão de palavras em caracteres especiais. Por exemplo, a palavra data/hora é extraída como data e hora, (bicicleta) como bicicleta, e C# é tratado como C. Caracteres especiais são descartados e não podem ser lexicalizados.
Reconhecer quando caracteres especiais, como o apóstrofo, não devem separar palavras. Por exemplo, a palavra bicycle's não é dividida em duas palavras, e dá origem ao termo único bicycle (substantivo).
Expressões de divisão de tempo, expressões monetárias, endereços de e-mail e endereços postais. Por exemplo, a data 31 de janeiro de 2004 está separada em três tokens, 31 de janeiro e 2004.
Palavras Marcadas
Em segundo lugar, a transformação de Extração de Termos marca as palavras como uma das seguintes categorias gramaticais:
Um substantivo na forma singular. Por exemplo, bicicleta e batata.
Um substantivo na forma plural. Por exemplo, bicicletas e batatas. Todos os substantivos plurais que não são lematizados estão sujeitos à radicalização.
Um nome próprio na forma singular. Por exemplo, April e Peter.
Um nome próprio no plural. Por exemplo, Aprils e Peters. Para que um nome próprio seja sujeito ao processo de derivação, deve fazer parte do léxico interno, que se limita a palavras padrão do inglês.
Um adjetivo. Por exemplo, azul.
Um adjetivo comparativo que compara duas coisas. Por exemplo, mais alto e mais alto.
Um adjetivo superlativo que identifica algo que tem uma qualidade acima ou abaixo do nível de pelo menos dois outros. Por exemplo, o mais alto e o mais alto.
Um número. Por exemplo, 62 e 2004.
Palavras que não fazem parte de uma destas classes gramaticais são descartadas. Por exemplo, verbos e pronomes são descartados.
Observação
A marcação das classes gramaticais baseia-se num modelo estatístico e a marcação pode não ser completamente precisa.
Se a transformação de Extração de Termos estiver configurada para extrair apenas substantivos, apenas as palavras marcadas como formas singulares ou plurais de substantivos e nomes próprios são extraídas.
Se a transformação de Extração de Termos for configurada para extrair apenas frases nominais, palavras marcadas como substantivos, nomes próprios, adjetivos e números podem ser combinadas para formar uma frase nominal, mas a frase deve incluir pelo menos uma palavra marcada como forma singular ou plural de um substantivo ou nome próprio. Por exemplo, o sintagma nominal mais alto montanha combina uma palavra marcada como adjetivo superlativo (mais alto) e uma palavra marcada como substantivo (montanha).
Se a Extração de Termos estiver configurada para extrair tanto substantivos como sintagmas nominais, tanto as regras para substantivos como as regras para sintagmas nominais aplicam-se. Por exemplo, a transformação extrai bicicleta e bicicleta azul bonita do texto muitas bicicletas azuis bonitas.
Observação
Os termos extraídos permanecem sujeitos ao comprimento máximo de duração e ao limiar de frequência que a transformação utiliza.
Palavras Reduzidas
A transformação de Extração de Termos também deriva substantivos para extrair apenas a forma singular de um substantivo. Por exemplo, a transformação extrai o homem dos homens, o rato dos ratos e a bicicleta das bicicletas. A transformação utiliza o seu dicionário para originar substantivos. Os gerúndios são tratados como substantivos se estiverem no dicionário.
A transformação de Extração de Termos deriva as palavras para a sua forma de dicionário, como demonstrado nestes exemplos, usando o dicionário interno da transformação de Extração de Termos.
Remover s dos substantivos. Por exemplo, bicicletastornam-se bicicleta.
Remover es dos substantivos. Por exemplo, históriastornam-se história.
Recuperando a forma singular para substantivos irregulares do dicionário. Por exemplo, gansos tornam-se gansos.
Palavras Normalizadas
A transformação de Extração de Termos normaliza termos que são capitalizados apenas devido à sua posição numa frase, e usa a sua forma não capitalizada em vez disso. Por exemplo, nas expressões Cães perseguem gatos e Trilhos de montanha são íngremes, Cães e Montanha seriam normalizados como cão e montanha.
A transformação de Extração de Termos normaliza as palavras para que as versões maiúsculas e não maiúsculas das palavras não sejam tratadas como termos diferentes. Por exemplo, no texto Você vê muitas bicicletas em Seattle e Bicicletas são azuis, bicicletas e Bicicletas são reconhecidas como o mesmo termo e a transformação mantém apenas bicicleta. Nomes próprios e palavras que não estão listadas no dicionário interno não são normalizadas.
Normalização Sensível a Maiúsculas e Minúsculas
A transformação de Extração de Termos pode ser configurada para considerar palavras minúsculas e maiúsculas como termos distintos ou como diferentes variantes do mesmo termo.
Se a transformação estiver configurada para reconhecer diferenças no caso, termos como Método e método são extraídos como dois termos diferentes. Palavras com maiúsculas que não são a primeira palavra de uma frase nunca são normalizadas e são etiquetadas como nomes próprios.
Se a transformação estiver configurada para ser insensível a maiúsculas e minúsculas, termos como Método e método são reconhecidos como variantes de um único termo. A lista de termos extraídos pode incluir Método ou Método, dependendo de qual palavra aparece primeiro no conjunto de dados de entrada. Se Método for capitalizado apenas por ser a primeira palavra de uma frase, é extraído em forma normalizada.
Limites de Frases e Palavras
A transformação de Extração de Termos separa o texto em frases usando os seguintes caracteres como limites das frases:
Caracteres ASCII de quebra de linha 0x0d (retorno de carro) e 0x0a (alimentação de linha). Para usar este carácter como limite de frase, devem existir dois ou mais caracteres de quebra de linha consecutivos.
Hífens (-). Para usar este carácter como limite de frase, nem o carácter à esquerda nem à direita do hífen podem ser uma letra.
Sublinhado (_). Para usar este carácter como limite de frase, nem o carácter à esquerda nem à direita do hífen podem ser uma letra.
Todos os caracteres Unicode que sejam menores ou iguais a 0x19, ou maiores ou iguais a 0x7b.
Combinações de números, sinais de pontuação e caracteres alfabéticos. Por exemplo, A23B#99 devolve o termo A23B.
Os caracteres, %, @, &, $, #, *, :, ;, ., , , !, ?, <, >, +, =, ^, ~, |, \, /, (, ), [, ], {, }, ", e '.
Observação
Acrónimos que incluem um ou mais pontos (.) não são divididos em várias frases.
A transformação de Extração de Termos separa então a frase em palavras usando os seguintes limites de palavras:
Espaço
Tab
ASCII 0x0d (retorno de carro)
ASCII 0x0a (alimentação de linha)
Observação
Se um apóstrofo está numa palavra que é uma contração, como we're ou it's, a palavra é dividida no apóstrofo; caso contrário, as letras que seguem o apóstrofo são aparadas. Por exemplo, we're é dividido em we e 're, e bicycle's é reduzido a bicycle.
Configuração da transformação de extração de termos
A transformação de Extração de Texto utiliza algoritmos internos e modelos estatísticos para gerar os seus resultados. Pode ter de executar a transformação de Extração de Termos várias vezes e examinar os resultados para configurar a transformação e gerar o tipo de resultados que funciona para a sua solução de mineração de texto.
A transformação de Extração de Termos tem uma entrada regular, uma saída e uma saída de erro.
Você pode definir propriedades por meio do SSIS Designer ou programaticamente.
Para obter mais informações sobre as propriedades que você pode definir na caixa de diálogo Advanced Editor ou programaticamente, clique em um dos seguintes tópicos:
Para obter mais informações sobre como definir propriedades, consulte Definir as propriedades de um componente de fluxo de dados.
Editor de Transformação para Extração de Termos (Separador de Termos)
Use o separador Extração de Termos da caixa de diálogo Editor de Transformação de Extração de Termos para especificar uma coluna de texto que contenha texto a extrair.
Opções
Colunas de entrada disponíveis
Usando as caixas de seleção, selecione uma única coluna de texto para usar na extração de termos.
Vigência
Forneça um nome para a coluna de saída que conterá os termos extraídos.
Pontuação
Forneça um nome para a coluna de saída que conterá a pontuação de cada termo extraído.
Configurar Saída de Erro
Utilize uma caixa de diálogo Configurar Saída de Erro para especificar o tratamento de erros para linhas que causam erros.
Editor de Transformação de Extração de Termos (Aba de Exclusão)
Use o separador Exclusão da caixa de diálogo Editor de Transformação de Extração de Termos para estabelecer uma ligação a uma tabela de exclusão e especificar as colunas que contêm os termos de exclusão.
Opções
Usar termos de exclusão
Indique se deve excluir termos específicos durante a extração de termos, especificando uma coluna que contenha termos de exclusão. Deve especificar as seguintes propriedades de origem se optar por excluir termos.
Gerenciador de conexões OLE DB
Selecione um gestor de ligações OLE DB existente, ou crie uma nova ligação clicando em Novo.
Novo
Crie uma nova ligação a uma base de dados usando a caixa de diálogo Configurar OLE DB Connection Manager .
Tabela ou vista
Selecione a tabela ou vista que contém os termos de exclusão.
Coluna
Selecione a coluna na tabela ou vista que contém os termos de exclusão.
Configurar Saída de Erro
Utilize uma caixa de diálogo Configurar Saída de Erro para especificar o tratamento de erros para linhas que causam erros.
Editor de Transformação de Extração de Termos (Aba Avançada)
Utilize o separador 'Avançado' da caixa de diálogo Editor de Transformação de Extração de Termos para especificar propriedades da extração, como frequência, tamanho e se deve extrair palavras ou frases.
Opções
Substantivo
Especifique que a transformação extrai apenas substantivos individuais.
Sintagma nominal
Especifique que a transformação extrai apenas sintagmas nominais.
Substantivo e sintagma nominal
Especifique que a transformação extrai tanto substantivos como sintagmas nominais.
Frequência
Especifique que a pontuação é a frequência do termo.
TFIDF
Especifique que a pontuação é o valor TFIDF do termo. A pontuação TFIDF é o produto da Frequência do Termo e da Frequência Inversa do Documento, definida como: TFIDF de um Termo T = (frequência de T) * log( (#linhas no conjunto de dados) / (#linhas contendo T) )
Limiar de frequência
Especifique o número de vezes que uma palavra ou frase deve ocorrer antes de a extrair. O valor predefinido é 2.
Duração máxima do período
Especifique o comprimento máximo de uma frase em palavras. Esta opção afeta apenas sintagmas nominais. O valor padrão é 12.
Uso de extração de termos com sensibilidade a maiúsculas minúsculas
Especifique se deve tornar a extração sensível a maiúsculas e minúsculas. O padrão é False.
Configurar Saída de Erro
Utilize uma caixa de diálogo Configurar Saída de Erro para especificar o tratamento de erros para linhas que causam erros.
Ver também
Referência de Erro e Mensagem dos Serviços de Integração
Transformação de pesquisa de termos