Resumir Dados

Artigo
09/01/2024

Este artigo descreve um componente do designer do Azure Machine Learning.

Use o componente Resumir dados para criar um conjunto de medidas estatísticas padrão que descrevem cada coluna na tabela de entrada.

As estatísticas de resumo são úteis quando você deseja entender as características do conjunto de dados completo. Por exemplo, talvez você precise saber:

Quantos valores faltam em cada coluna?
Quantos valores exclusivos existem em uma coluna de recurso?
Qual é a média e o desvio padrão para cada coluna?

O componente calcula as pontuações importantes para cada coluna e retorna uma linha de estatísticas de resumo para cada variável (coluna de dados) fornecida como entrada.

Como configurar o Resumir Dados

Adicione o componente Resumir dados ao seu pipeline. Você pode encontrar esse componente na categoria Funções estatísticas no designer.
Conecte o conjunto de dados para o qual você deseja gerar um relatório.

Se você quiser relatar apenas algumas colunas, use o componente Selecionar colunas no conjunto de dados para projetar um subconjunto de colunas para trabalhar.
Não são necessários parâmetros adicionais. Por padrão, o componente analisa todas as colunas que são fornecidas como entrada e, dependendo do tipo de valores nas colunas, produz um conjunto relevante de estatísticas, conforme descrito na seção Resultados .
Envie o pipeline.

Resultados

O relatório do componente pode incluir as seguintes estatísticas.

Nome da coluna	Description
Funcionalidade	Nome da coluna
Contagem	Contagem de todas as linhas
Contagem de valor única	Número de valores exclusivos na coluna
Contagem de valores ausentes	Número de valores exclusivos na coluna
Min	Valor mais baixo na coluna
Máx.	Valor mais alto na coluna
Média	Média de todos os valores de coluna
Desvio médio	Desvio médio dos valores das colunas
1º Quartil	Valor no primeiro quartil
Mediana	Valor mediano da coluna
3º Quartil	Valor no terceiro quartil
Modo	Modo de valores de coluna
Intervalo	Inteiro que representa o número de valores entre os valores máximo e mínimo
Variância da amostra	Variância para coluna; ver Nota
Desvio padrão da amostra	Desvio-padrão para coluna; ver Nota
Assimetria da amostra	Assimetria para coluna; ver Nota
Amostra de Kurtosis	Kurtosis para coluna; ver Nota
P0,5	Percentil 0,5%
P1	Percentil 1%
P5	Percentil 5%
Pág. 95	Percentil 95%
Pág. 99,5	Percentil 99,5%

Notas técnicas

Para colunas não numéricas, apenas os valores de Contagem, Contagem de valores exclusiva e Contagem de valores ausentes são calculados. Para outras estatísticas, um valor nulo é retornado.
As colunas que contêm valores booleanos são processadas usando estas regras:
- Ao calcular Min, um E lógico é aplicado.
- Ao calcular Max, um OR lógico é aplicado
- Ao calcular Intervalo, o componente primeiro verifica se o número de valores exclusivos na coluna é igual a 2.
- Ao calcular qualquer estatística que exija cálculos de vírgula flutuante, os valores de True são tratados como 1,0 e os valores de False são tratados como 0,0.

Próximos passos

Consulte o conjunto de componentes disponíveis para o Azure Machine Learning.

Partilhar via

Resumir Dados

Como configurar o Resumir Dados

Resultados

Notas técnicas

Próximos passos

Comentários

Recursos adicionais