Partilhar via


Resumir Dados

Este artigo descreve um componente do designer do Azure Machine Learning.

Use o componente Resumir dados para criar um conjunto de medidas estatísticas padrão que descrevem cada coluna na tabela de entrada.

As estatísticas de resumo são úteis quando você deseja entender as características do conjunto de dados completo. Por exemplo, talvez você precise saber:

  • Quantos valores faltam em cada coluna?
  • Quantos valores exclusivos existem em uma coluna de recurso?
  • Qual é a média e o desvio padrão para cada coluna?

O componente calcula as pontuações importantes para cada coluna e retorna uma linha de estatísticas de resumo para cada variável (coluna de dados) fornecida como entrada.

Como configurar o Resumir Dados

  1. Adicione o componente Resumir dados ao seu pipeline. Você pode encontrar esse componente na categoria Funções estatísticas no designer.

  2. Conecte o conjunto de dados para o qual você deseja gerar um relatório.

    Se você quiser relatar apenas algumas colunas, use o componente Selecionar colunas no conjunto de dados para projetar um subconjunto de colunas para trabalhar.

  3. Não são necessários parâmetros adicionais. Por padrão, o componente analisa todas as colunas que são fornecidas como entrada e, dependendo do tipo de valores nas colunas, produz um conjunto relevante de estatísticas, conforme descrito na seção Resultados .

  4. Envie o pipeline.

Resultados

O relatório do componente pode incluir as seguintes estatísticas.

Nome da coluna Description
Funcionalidade Nome da coluna
Contagem Contagem de todas as linhas
Contagem de valor única Número de valores exclusivos na coluna
Contagem de valores ausentes Número de valores exclusivos na coluna
Min Valor mais baixo na coluna
Máx. Valor mais alto na coluna
Média Média de todos os valores de coluna
Desvio médio Desvio médio dos valores das colunas
1º Quartil Valor no primeiro quartil
Mediana Valor mediano da coluna
3º Quartil Valor no terceiro quartil
Modo Modo de valores de coluna
Intervalo Inteiro que representa o número de valores entre os valores máximo e mínimo
Variância da amostra Variância para coluna; ver Nota
Desvio padrão da amostra Desvio-padrão para coluna; ver Nota
Assimetria da amostra Assimetria para coluna; ver Nota
Amostra de Kurtosis Kurtosis para coluna; ver Nota
P0,5 Percentil 0,5%
P1 Percentil 1%
P5 Percentil 5%
Pág. 95 Percentil 95%
Pág. 99,5 Percentil 99,5%

Notas técnicas

  • Para colunas não numéricas, apenas os valores de Contagem, Contagem de valores exclusiva e Contagem de valores ausentes são calculados. Para outras estatísticas, um valor nulo é retornado.

  • As colunas que contêm valores booleanos são processadas usando estas regras:

    • Ao calcular Min, um E lógico é aplicado.

    • Ao calcular Max, um OR lógico é aplicado

    • Ao calcular Intervalo, o componente primeiro verifica se o número de valores exclusivos na coluna é igual a 2.

    • Ao calcular qualquer estatística que exija cálculos de vírgula flutuante, os valores de True são tratados como 1,0 e os valores de False são tratados como 0,0.

Próximos passos

Consulte o conjunto de componentes disponíveis para o Azure Machine Learning.