Pré-processar Texto

Este artigo descreve um componente no estruturador do Azure Machine Learning.

Utilize o componente Texto Pré-processamento para limpar e simplificar o texto. Suporta estas operações comuns de processamento de texto:

  • Remoção de palavras de paragem
  • Utilizar expressões regulares para procurar e substituir cadeias de destino específicas
  • A lematização, que converte múltiplas palavras relacionadas numa única forma canónica
  • Normalização de casos
  • Remoção de determinadas classes de carateres, tais como números, carateres especiais e sequências de carateres repetidos, como "aaaa"
  • Identificação e remoção de e-mails e URLs

Atualmente, o componente Texto Pré-processamento só suporta inglês.

Configurar Pré-processamento de Texto

  1. Adicione o componente Texto pré-processamento ao pipeline no Azure Machine Learning. Pode encontrar este componente em Análise de Texto.

  2. Ligue um conjunto de dados que tenha, pelo menos, uma coluna que contenha texto.

  3. Selecione o idioma na lista pendente Idioma .

  4. Coluna de texto a limpar: selecione a coluna que pretende pré-processar.

  5. Remover palavras de paragem: selecione esta opção se quiser aplicar uma lista de palavras-passe predefinidas à coluna de texto.

    As listas de palavras-passe são dependentes de idiomas e personalizáveis.

  6. Lemmatização: selecione esta opção se quiser que as palavras sejam representadas na forma canónica. Esta opção é útil para reduzir o número de ocorrências exclusivas de tokens de texto semelhantes.

    O processo de lemmatização é altamente dependente de linguagem.

  7. Detetar frases: selecione esta opção se pretender que o componente insira uma marca de limite de frase ao efetuar uma análise.

    Este componente utiliza uma série de três carateres ||| de pipe para representar o exterminador de frases.

  8. Executar operações opcionais de localizar e substituir com expressões regulares. A expressão regular será processada inicialmente, à frente de todas as outras opções incorporadas.

    • Expressão regular personalizada: defina o texto que está a procurar.
    • Cadeia de substituição personalizada: defina um único valor de substituição.
  9. Normalizar maiúsculas/minúsculas: selecione esta opção se quiser converter carateres maiúsculos ASCII nos formulários em minúsculas.

    Se os carateres não estiverem normalizados, a mesma palavra em letras maiúsculas e minúsculas é considerada duas palavras diferentes.

  10. Também pode remover os seguintes tipos de carateres ou sequências de carateres do texto de saída processado:

    • Remover números: selecione esta opção para remover todos os carateres numéricos do idioma especificado. Os números de identificação são dependentes do domínio e do idioma dependente. Se os carateres numéricos forem parte integrante de uma palavra conhecida, o número poderá não ser removido. Saiba mais em Notas técnicas.

    • Remover carateres especiais: utilize esta opção para remover quaisquer carateres especiais não alfanuméricos.

    • Remover carateres duplicados: selecione esta opção para remover carateres adicionais em quaisquer sequências que se repitam mais do que duas vezes. Por exemplo, uma sequência como "aaaaa" seria reduzida a "aa".

    • Remover endereços de e-mail: selecione esta opção para remover qualquer sequência do formato <string>@<string>.

    • Remover URLs: selecione esta opção para remover qualquer sequência que inclua os seguintes prefixos de URL: http, https, , ftpwww

  11. Expandir contrações verbos: esta opção aplica-se apenas a idiomas que utilizam contrações verbos; atualmente, apenas em inglês.

    Por exemplo, ao selecionar esta opção, pode substituir a expressão "não ficaria aí" por "não ficaria lá".

  12. Normalizar barras invertidas em barras: selecione esta opção para mapear todas as instâncias de \\ para /.

  13. Dividir tokens em carateres especiais: selecione esta opção se quiser quebrar palavras em carateres como &, -e assim sucessivamente. Esta opção também pode reduzir os carateres especiais quando se repete mais do que duas vezes.

    Por exemplo, a cadeia MS---WORD seria separada em três tokens, MS, -e WORD.

  14. Submeta o pipeline.

Notas técnicas

O componente de pré-processamento de texto no Studio(clássico) e o estruturador utilizam modelos de linguagem diferentes. O estruturador utiliza um modelo preparado para CNN de várias tarefas a partir de spaCy. Diferentes modelos dão um tokenizer diferente e um tagger de parte da voz, o que leva a resultados diferentes.

Seguem-se alguns exemplos:

Configuração Resultado de saída
Com todas as opções selecionadas
Explicação:
para os casos como "3test" no "WC-3 3test 4test", o estruturador remove toda a palavra "3test", uma vez que, neste contexto, o tagger de parte da voz especifica este token "3test" como numeral e, de acordo com a parte da voz, o componente remove-o.
Com todas as opções selecionadas
Com apenas Removing number a Explicação selecionada
:
para os casos como "3test", "4-EC", a dose de token do estruturador não divide estes casos e trata-os como tokens inteiros. Assim, não removerá os números nestas palavras.
Com apenas

Também pode utilizar uma expressão regular para produzir resultados personalizados:

Configuração Resultado de saída
Com todas as opções selecionadas Expressão regular personalizada
: (\s+)*(-|\d+)(\s+)*
Cadeia de substituição personalizada: \1 \2 \3
Com todas as opções selecionadas e expressão regular
Com apenas Removing number a expressão regular personalizada selecionada
: (\s+)*(-|\d+)(\s+)*
Cadeia de substituição personalizada: \1 \2 \3
Com a remoção de números selecionados e expressão regular

Passos seguintes

Veja o conjunto de componentes disponíveis para o Azure Machine Learning.