Partilhar via


Transformação de Pesquisa de Termos

Aplica-se a:SQL Server SSIS Integration Runtime em Azure Data Factory

A transformação de Pesquisa de Termos faz corresponder termos extraídos de texto numa coluna de entrada da transformação com termos numa tabela de referência. Depois, conta o número de vezes que um termo na tabela de consulta aparece no conjunto de dados de entrada e escreve a contagem juntamente com o termo da tabela de referência para as colunas da saída da transformação. Esta transformação é útil para criar uma lista de palavras personalizada baseada no texto de entrada, completa com estatísticas de frequência de palavras.

Antes de a transformação de Pesquisa de Termos realizar uma pesquisa, ela extrai palavras do texto numa coluna de entrada usando o mesmo método da transformação de Extração de Termos:

  • O texto está dividido em frases.

  • As frases são divididas em palavras.

  • As palavras são normalizadas.

Para personalizar ainda mais quais os termos a corresponder, a transformação Term Lookup pode ser configurada para realizar uma correspondência sensível a maiúsculas e minúsculas.

Correspondências

A Consulta de Termos realiza uma consulta e devolve um valor usando as seguintes regras:

  • Se a transformação estiver configurada para realizar correspondências que diferenciam entre maiúsculas e minúsculas, as correspondências que não consigam corresponder dessa forma são descartadas. Por exemplo, estudante e ALUNO são tratados como palavras separadas.

    Observação

    Uma palavra sem maiúsculas pode ser associada a uma palavra que está em maiúscula no início de uma frase. Por exemplo, a correspondência entre aluno e aluno é bem-sucedida quando o aluno é a primeira palavra de uma frase.

  • Se existir uma forma plural do substantivo ou sintagma nominal na tabela de referência, a consulta corresponde apenas à forma plural do substantivo ou sintagma nominal. Por exemplo, todas as instâncias de estudantes seriam contadas separadamente das instâncias de estudante.

  • Se apenas a forma singular da palavra for encontrada na tabela de referência, tanto a forma singular como a plural da palavra ou frase são associadas à forma singular. Por exemplo, se a tabela de consulta contiver estudante, e a transformação encontrar as palavras estudante e estudantes, ambas as palavras seriam contadas como correspondência para o termo de consulta estudante.

  • Se o texto na coluna de entrada for um sintagma nominal lematizado, apenas a última palavra da frase nominal é afetada pela normalização. Por exemplo, a versão lematizada das consultas médicas é consultas médicas.

Quando um item de consulta contém termos que se sobrepõem no conjunto de referência — ou seja, um subtermo é encontrado em mais do que um registo de referência — a transformação de Consulta de Termos retorna apenas um resultado de consulta. O exemplo seguinte mostra o resultado quando um item de consulta contém um subtermo sobreposto. O subtermo sobreposto neste caso é Windows, que é encontrado dentro de dois termos de referência. No entanto, a transformação não retorna dois resultados, mas apenas um termo de referência, Windows. O segundo termo de referência, Windows 7 Professional, não é devolvido.

Item Valor
Termo de entrada Windows 7 Profissional
Termos de referência Windows, Windows 7 Professional
Resultado Windows

A transformação Pesquisa de Termos pode corresponder a substantivos e sintagmas nominais que contêm caracteres especiais; além disso, os dados na tabela de referência podem incluir esses caracteres. Os caracteres especiais são os seguintes: %, @, &, $, #, *, :, ;, ., , , !, ?, , , +, =, ^, ~, |, \, /, (, ), [, ], {, }, ", e '.

Tipos de dados

A transformação de Pesquisa de Termos só pode usar uma coluna que tenha o tipo de dado DT_WSTR ou DT_NTEXT. Se uma coluna contiver texto, mas não tiver um destes tipos de dados, a transformação de Conversão de Dados pode adicionar uma coluna com o tipo de dado DT_WSTR ou DT_NTEXT ao fluxo de dados e copiar os valores das colunas para a nova coluna. A saída da transformação de Conversão de Dados pode então ser usada como entrada para a transformação de Pesquisa de Termos. Para obter mais informações, consulte Transformação de Conversão de Dados.

Configuração da Transformação de Pesquisa de Termos

As colunas de entrada da transformação de Pesquisa de Termos têm a propriedade InputColumnType, que indica o uso da coluna. O InputColumnType pode conter os seguintes valores:

  • O valor 0 indica que a coluna é passada apenas para a saída e não é usado na consulta.

  • O valor 1 indica que a coluna é usada apenas na pesquisa.

  • O valor 2 indica que a coluna é passada para a saída e também é utilizada na consulta.

Colunas de saída de transformação cuja propriedade InputColumnType está definida para 0 ou 2 incluem a propriedade CustomLineageID para uma coluna, que contém o identificador de linhagem atribuído à coluna por um componente de fluxo de dados a montante.

A transformação Pesquisa de Termos adiciona duas colunas à saída da transformação, nomeadas por defeito Termo e Frequência. O termo contém um termo da tabela de consulta e a Frequência contém o número de vezes que o termo na tabela de referência aparece no conjunto de dados de entrada. Estas colunas não incluem a propriedade CustomLineageID.

A tabela de consulta deve ser uma tabela num SQL Server ou numa base de dados Access. Se a saída da transformação de Extração de Termos for guardada numa tabela, esta tabela pode ser usada como tabela de referência, mas outras tabelas também podem ser usadas. Textos em ficheiros planos, livros do Excel ou outras fontes devem ser importados para uma base de dados SQL Server ou para uma base de dados Access antes de poder usar a transformação de Pesquisa de Termos.

A transformação Pesquisa de Termos utiliza uma ligação OLE DB separada para se ligar à tabela de referência. Para obter mais informações, consulte Gerenciador de conexões OLE DB.

A transformação de Pesquisa de Termos funciona em modo totalmente pré-cacheado. Em tempo de execução, a transformação de Pesquisa de Termos lê os termos da tabela de referência e armazena-os na sua memória privada antes de processar quaisquer linhas de entrada da transformação.

Como os termos numa linha de coluna de entrada podem repetir-se, a saída da transformação de Consulta de Termos normalmente tem mais linhas do que a entrada da transformação.

A transformação tem uma entrada e uma saída. Não suporta saídas de erro.

Você pode definir propriedades por meio do SSIS Designer ou programaticamente.

Para obter mais informações sobre as propriedades que você pode definir na caixa de diálogo Advanced Editor ou programaticamente, clique em um dos seguintes tópicos:

Para obter mais informações sobre como definir propriedades, consulte Definir as propriedades de um componente de fluxo de dados.

Editor de Transformação de Pesquisa de Termos (Separador de Pesquisa de Termos)

Use a aba Consulta de Termos da caixa de diálogo Editor de Transformação de Pesquisa de Termos para mapear uma coluna de entrada para uma coluna de pesquisa numa tabela de referência e para fornecer um alias para cada coluna de saída.

Opções

Colunas de entrada disponíveis
Usando as caixas de seleção, selecione as colunas de entrada para passar para a saída sem alterações. Arraste uma coluna de entrada para a lista de Colunas de Referência Disponíveis para a mapear para uma coluna de consulta na tabela de referência. As colunas de entrada e consulta devem ter tipos de dados correspondentes e suportados, seja DT_NTEXT ou DT_WSTR. Selecione uma linha de mapeamento e clique com o botão direito para editar os mapeamentos na caixa de diálogo Criar Relacionamentos .

Colunas de Referência Disponíveis
Veja as colunas disponíveis na tabela de referência. Escolha a coluna que contém a lista de termos a corresponder.

Coluna de Passagem
Selecione da lista de colunas de entrada disponíveis. Suas seleções são refletidas nas seleções de caixa de seleção na tabela Colunas de entrada disponíveis .

Alias da Coluna de Saída
Digite um alias para cada coluna de saída. O padrão é o nome da coluna; No entanto, pode escolher qualquer nome único e descritivo.

Configurar Saída de Erro
Utilize a caixa de diálogo Configurar Saída de Erro para especificar opções de tratamento de erros para linhas que apresentam erros.

Editor de Transformação de Consultas de Termos (Aba de Tabela de Referência)

Use o separador Tabela de Referência da caixa de diálogo Editor de Transformação de Pesquisa de Termos para especificar a ligação à tabela de referência (consulta).

Opções

Gerenciador de conexões OLE DB
Selecione um gerenciador de conexões existente na lista ou crie uma nova conexão clicando em Novo.

Novo
Crie uma nova conexão usando a caixa de diálogo Configurar Gerenciador de Conexões OLE DB .

Nome da tabela de referência
Selecione uma tabela ou vista de consulta a partir da base de dados selecionando um item da lista. A tabela ou vista deve conter uma coluna com uma lista existente de termos com os quais o texto na coluna de origem pode ser comparado.

Configurar Saída de Erro
Utilize a caixa de diálogo Configurar Saída de Erro para especificar opções de tratamento de erros para tratar linhas que provoquem erros.

Editor de Transformação de Pesquisa de Termos (Separador Avançado)

Use o separador Avançado da caixa de diálogo do Editor de Transformação de Pesquisa de Termos para especificar se a pesquisa deve diferenciar entre maiúsculas e minúsculas.

Opções

Usar pesquisa de termos que distingue maiúsculas de minúsculas
Indique se a pesquisa é sensível a maiúsculas e minúsculas. O padrão é False.

Configurar Saída de Erro
Utilize a caixa de diálogo Configurar Saída de Erro para especificar opções de tratamento de erros para linhas que causam erros.

Ver também

Referência de Erro e Mensagem dos Serviços de Integração
Transformação por Extração de Termos