Resumir Dados
Este artigo descreve um componente do designer do Azure Machine Learning.
Use o componente Resumir dados para criar um conjunto de medidas estatísticas padrão que descrevem cada coluna na tabela de entrada.
As estatísticas de resumo são úteis quando você deseja entender as características do conjunto de dados completo. Por exemplo, talvez você precise saber:
- Quantos valores faltam em cada coluna?
- Quantos valores exclusivos existem em uma coluna de recurso?
- Qual é a média e o desvio padrão para cada coluna?
O componente calcula as pontuações importantes para cada coluna e retorna uma linha de estatísticas de resumo para cada variável (coluna de dados) fornecida como entrada.
Como configurar o Resumir Dados
Adicione o componente Resumir dados ao seu pipeline. Você pode encontrar esse componente na categoria Funções estatísticas no designer.
Conecte o conjunto de dados para o qual você deseja gerar um relatório.
Se você quiser relatar apenas algumas colunas, use o componente Selecionar colunas no conjunto de dados para projetar um subconjunto de colunas para trabalhar.
Não são necessários parâmetros adicionais. Por padrão, o componente analisa todas as colunas que são fornecidas como entrada e, dependendo do tipo de valores nas colunas, produz um conjunto relevante de estatísticas, conforme descrito na seção Resultados .
Envie o pipeline.
Resultados
O relatório do componente pode incluir as seguintes estatísticas.
Nome da coluna | Description |
---|---|
Funcionalidade | Nome da coluna |
Contagem | Contagem de todas as linhas |
Contagem de valor única | Número de valores exclusivos na coluna |
Contagem de valores ausentes | Número de valores exclusivos na coluna |
Min | Valor mais baixo na coluna |
Máx. | Valor mais alto na coluna |
Média | Média de todos os valores de coluna |
Desvio médio | Desvio médio dos valores das colunas |
1º Quartil | Valor no primeiro quartil |
Mediana | Valor mediano da coluna |
3º Quartil | Valor no terceiro quartil |
Modo | Modo de valores de coluna |
Intervalo | Inteiro que representa o número de valores entre os valores máximo e mínimo |
Variância da amostra | Variância para coluna; ver Nota |
Desvio padrão da amostra | Desvio-padrão para coluna; ver Nota |
Assimetria da amostra | Assimetria para coluna; ver Nota |
Amostra de Kurtosis | Kurtosis para coluna; ver Nota |
P0,5 | Percentil 0,5% |
P1 | Percentil 1% |
P5 | Percentil 5% |
Pág. 95 | Percentil 95% |
Pág. 99,5 | Percentil 99,5% |
Notas técnicas
Para colunas não numéricas, apenas os valores de Contagem, Contagem de valores exclusiva e Contagem de valores ausentes são calculados. Para outras estatísticas, um valor nulo é retornado.
As colunas que contêm valores booleanos são processadas usando estas regras:
Ao calcular Min, um E lógico é aplicado.
Ao calcular Max, um OR lógico é aplicado
Ao calcular Intervalo, o componente primeiro verifica se o número de valores exclusivos na coluna é igual a 2.
Ao calcular qualquer estatística que exija cálculos de vírgula flutuante, os valores de True são tratados como 1,0 e os valores de False são tratados como 0,0.
Próximos passos
Consulte o conjunto de componentes disponíveis para o Azure Machine Learning.