Resumir Dados
Este artigo descreve um componente do estruturador do Azure Machine Learning.
Utilize o componente Summarize Data para criar um conjunto de medidas estatísticas padrão que descrevem cada coluna na tabela de entrada.
As estatísticas de resumo são úteis quando pretende compreender as características do conjunto de dados completo. Por exemplo, poderá ter de saber:
- Quantos valores em falta existem em cada coluna?
- Quantos valores exclusivos existem numa coluna de funcionalidades?
- Qual é a média e o desvio padrão para cada coluna?
O componente calcula as classificações importantes para cada coluna e devolve uma linha de estatísticas de resumo para cada variável (coluna de dados) fornecida como entrada.
Como configurar Dados resumidos
Adicione o componente Summarize Data ao pipeline. Pode encontrar este componente na categoria Funções Estatísticas no estruturador.
Ligue o conjunto de dados para o qual pretende gerar um relatório.
Se quiser comunicar apenas em algumas colunas, utilize o componente Selecionar Colunas no Conjunto de Dados para projetar um subconjunto de colunas para trabalhar.
Não são necessários parâmetros adicionais. Por predefinição, o componente analisa todas as colunas fornecidas como entrada e, dependendo do tipo de valores nas colunas, produz um conjunto de estatísticas relevante, conforme descrito na secção Resultados .
Submeta o pipeline.
Resultados
O relatório do componente pode incluir as seguintes estatísticas.
Nome da coluna | Description |
---|---|
Funcionalidade | Nome da coluna |
Count | Contagem de todas as linhas |
Contagem de Valores Exclusivos | Número de valores exclusivos na coluna |
Contagem de Valores em Falta | Número de valores exclusivos na coluna |
Min | Valor mais baixo na coluna |
Max | Valor mais alto na coluna |
Média | Média de todos os valores de coluna |
Desvio Médio | Desvio médio dos valores de coluna |
1º Quartil | Valor no primeiro quartil |
Mediana | Valor da coluna mediana |
3º Quartil | Valor no terceiro quartil |
Modo | Modo de valores de coluna |
Intervalo | Número inteiro que representa o número de valores entre os valores máximo e mínimo |
Variância de Exemplo | Variância da coluna; ver Nota |
Desvio Padrão de Exemplo | Desvio padrão para coluna; ver Nota |
Distorção de Exemplo | Distorção da coluna; ver Nota |
Kurtosis de exemplo | Kurtose para coluna; ver Nota |
P0.5 | Percentil de 0,5% |
P1 | Percentil de 1% |
P5 | Percentil de 5% |
P95 | Percentil de 95% |
P99.5 | Percentil de 99,5% |
Notas técnicas
Para colunas não numéricas, são calculados apenas os valores de Contagem, Contagem de valores exclusivos e Contagem de valores em falta. Para outras estatísticas, é devolvido um valor nulo.
As colunas que contêm valores booleanos são processadas com estas regras:
Ao calcular Min, é aplicado um AND lógico.
Ao calcular Max, é aplicado um OR lógico
Ao calcular Intervalo, o componente verifica primeiro se o número de valores exclusivos na coluna é igual a 2.
Ao calcular qualquer estatística que exija cálculos de vírgula flutuante, os valores de Verdadeiro são tratados como 1,0 e os valores de Falso são tratados como 0,0.
Passos seguintes
Veja o conjunto de componentes disponíveis para o Azure Machine Learning.