Resumir Dados

Este artigo descreve um componente do estruturador do Azure Machine Learning.

Utilize o componente Summarize Data para criar um conjunto de medidas estatísticas padrão que descrevem cada coluna na tabela de entrada.

As estatísticas de resumo são úteis quando pretende compreender as características do conjunto de dados completo. Por exemplo, poderá ter de saber:

  • Quantos valores em falta existem em cada coluna?
  • Quantos valores exclusivos existem numa coluna de funcionalidades?
  • Qual é a média e o desvio padrão para cada coluna?

O componente calcula as classificações importantes para cada coluna e devolve uma linha de estatísticas de resumo para cada variável (coluna de dados) fornecida como entrada.

Como configurar Dados resumidos

  1. Adicione o componente Summarize Data ao pipeline. Pode encontrar este componente na categoria Funções Estatísticas no estruturador.

  2. Ligue o conjunto de dados para o qual pretende gerar um relatório.

    Se quiser comunicar apenas em algumas colunas, utilize o componente Selecionar Colunas no Conjunto de Dados para projetar um subconjunto de colunas para trabalhar.

  3. Não são necessários parâmetros adicionais. Por predefinição, o componente analisa todas as colunas fornecidas como entrada e, dependendo do tipo de valores nas colunas, produz um conjunto de estatísticas relevante, conforme descrito na secção Resultados .

  4. Submeta o pipeline.

Resultados

O relatório do componente pode incluir as seguintes estatísticas.

Nome da coluna Description
Funcionalidade Nome da coluna
Count Contagem de todas as linhas
Contagem de Valores Exclusivos Número de valores exclusivos na coluna
Contagem de Valores em Falta Número de valores exclusivos na coluna
Min Valor mais baixo na coluna
Max Valor mais alto na coluna
Média Média de todos os valores de coluna
Desvio Médio Desvio médio dos valores de coluna
1º Quartil Valor no primeiro quartil
Mediana Valor da coluna mediana
3º Quartil Valor no terceiro quartil
Modo Modo de valores de coluna
Intervalo Número inteiro que representa o número de valores entre os valores máximo e mínimo
Variância de Exemplo Variância da coluna; ver Nota
Desvio Padrão de Exemplo Desvio padrão para coluna; ver Nota
Distorção de Exemplo Distorção da coluna; ver Nota
Kurtosis de exemplo Kurtose para coluna; ver Nota
P0.5 Percentil de 0,5%
P1 Percentil de 1%
P5 Percentil de 5%
P95 Percentil de 95%
P99.5 Percentil de 99,5%

Notas técnicas

  • Para colunas não numéricas, são calculados apenas os valores de Contagem, Contagem de valores exclusivos e Contagem de valores em falta. Para outras estatísticas, é devolvido um valor nulo.

  • As colunas que contêm valores booleanos são processadas com estas regras:

    • Ao calcular Min, é aplicado um AND lógico.

    • Ao calcular Max, é aplicado um OR lógico

    • Ao calcular Intervalo, o componente verifica primeiro se o número de valores exclusivos na coluna é igual a 2.

    • Ao calcular qualquer estatística que exija cálculos de vírgula flutuante, os valores de Verdadeiro são tratados como 1,0 e os valores de Falso são tratados como 0,0.

Passos seguintes

Veja o conjunto de componentes disponíveis para o Azure Machine Learning.