Partilhar via


Estatísticas Elementares do Cálculo

Importante

O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.

A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).

A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.

Calcula estatísticas sumárias especificadas para colunas selecionadas de conjuntos de dados

Categoria: Funções Estatísticas

Nota

Aplica-se a: Machine Learning Studio (clássico) apenas

Módulos semelhantes de arrasto e queda estão disponíveis em Azure Machine Learning designer.

Visão geral do módulo

Este artigo descreve como utilizar o módulo de Estatísticas Elementares computacional no Machine Learning Studio (clássico), para gerar um relatório sumário para o seu conjunto de dados que lista estatísticas-chave como o desvio médio, padrão e a gama de valores para cada uma das colunas selecionadas.

Este relatório é útil para analisar a tendência central, a dispersão e a forma dos dados.

Como configurar estatísticas elementares do computacional

  1. Adicione o módulo de Estatísticas Elementares computacional à sua experiência. Pode encontrar este módulo na categoria Funções Estatísticas no Machine Learning Studio (clássico).

  2. Ligação um conjunto de dados que contenha as colunas que pretende analisar.

  3. Clique na lista de retirada do método e escolha o tipo de valor que pretende calcular para cada coluna.

    Consulte a secção estatísticas apoiadas para obter uma lista completa das estatísticas disponíveis e o que significam.

  4. Por predefinição, o valor selecionado na lista de retirada do Método será calculado para todas as colunas do conjunto de dados que tenham um tipo de dados numérico. Se alguma coluna tiver valores que impeçam o valor de ser calculado, será levantado um erro e o relatório não será criado.

    Para evitar este erro, utilize o seletor de colunas para escolher as colunas numéricas para as quais pretende um relatório. Todas as colunas que escolher devem ser numéricas.

  5. Execute a experimentação.

Resultados

O relatório gerado inclui o nome de cada coluna e a estatística que foi calculada. Por exemplo, o quadro seguinte mostra estatísticas geradas para a coluna MPG .

DesvioSquared(mpg) Max(mpg) Min(mpg)
9674.312 25.21951 13

Dica

Cada vez que executar Estatísticas Elementares do Cálculo, pode gerar apenas uma estatística resumida para cada uma das colunas selecionadas. No entanto, pode utilizar os módulos Add Columns ou Add Rows para fundir os resultados numa única tabela, como no exemplo anterior.

Estatísticas apoiadas

Este módulo suporta as seguintes estatísticas descritivas padrão.

Desvio ao quadrado

Calcula o desvio ao quadrado dos valores da coluna. Também conhecida como a soma dos quadrados.

O desvio ao quadrado é uma medida da distância que os valores estão dispersos da média.

Média geométrica

Calcula a média geométrica dos valores da coluna.

A média geométrica pode ser usada para medir a tendência central de um conjunto de números. Em comparação com a média aritmética, é menos afetada por um pequeno número de valores extremos. Também pode ser usado para comparar medições em escalas diferentes, uma vez que normaliza efetivamente as escalas dos números que estão a ser comparados. Os meios geométricos são por vezes usados para estimar taxas de crescimento anuais compostas.

A função equivalente em Excel é a GEOMEAN.

Média harmónica

Calcula a média harmónica dos valores da coluna.

Para calcular a média harmónica, todos os valores são convertidos para os seus recíprocos, e então a média é tomada desses valores. A média harmónica é a recíproca dessa média. Se os valores da coluna forem positivos, os números maiores são ponderados menos do que números menores.

A média harmónica é sempre inferior à média geométrica, que é sempre menos do que a média aritmética. A média harmónica é útil para uma média de variáveis que representam taxas, tais como velocidade (distância ao longo do tempo) ou vendas por trimestre.

A função equivalente em Excel é HARMEAN.

Distância interquartile

Calcula a diferença interquátil para o primeiro e último quartil dos valores da coluna. Também chamado de intervalo de quartil. Quando o quartil cai entre dois números, o valor do quartil é a média dos dois valores em ambos os lados do corte.

O valor do quartil divide a coluna de valores em quatro grupos com um número igual de valores. Assim, um quarto dos valores são inferiores ou iguais ao percentil 25. Três quartos dos valores são inferiores ou iguais ao percentil 75. Ao rever a gama de quartil, pode ter uma ideia de quão amplamente difundem os valores de dados.

K-th momento central

Calcula o momento central K-th para os valores da coluna.

Ao calcular o momento central do K-th, também deve especificar a Ordem, ou seja, o valor de k. O valor de k pode variar de 0 a qualquer valor inteiro permitido, embora valores de ordem mais elevados geralmente não sejam significativos.

Geralmente, em estatísticas descritivas, um momento é uma medida que descreve a forma de um conjunto de pontos. Momentos centrais são momentos sobre a média, que são normalmente usadas porque fornecem melhor informação sobre a forma da distribuição. Uma ordem de 2 geralmente representa a variação; uma ordem de 4 é usada para a kurtose. O primeiro momento de ordem é o mau. Assim, a coleção de todos os momentos descreve de forma única a distribuição de valores na coluna.

Máx

Encontra o valor máximo na coluna.

Média

Calcula a média aritmética dos valores da coluna.

A função equivalente em Excel é MÉDIA.

Desvio médio

Calcula o desvio absoluto médio para os valores da coluna.

Ou seja, a média é calculada para a coluna, e o desvio calculado para cada valor na coluna. A média dos valores absolutos dos valores de desvio individual é o desvio médio.

Esta estatística diz-te como está espalhada da média que a tua coluna de números está.

Mediana

Devolve a mediana dos valores da coluna.

A mediana é o número no meio de uma coluna de números. Se houver um número par de números na coluna, a mediana é a média dos dois números no meio.

A mediana, juntamente com a média e o modo, é uma das três estatísticas que mede a tendência central. Se os valores forem simétricos em torno da média, os três números serão quase os mesmos. No entanto, a mediana é mais robusta para os forasteiros do que a média.

Desvio mediano

Calcula o desvio mediano para a coluna.

Ou seja, a mediana é calculada para a coluna, e o desvio calculado para cada valor na coluna. O valor mediano dos valores absolutos dos valores de desvio individual é tomado.

O desvio absoluto mediano também é conhecido como MAD, e é usado para descrever a variabilidade de uma amostra de números. Mad diz-lhe como se espalhou da média a sua coluna de números.

Mín

Devolve o valor mínimo dos valores da coluna.

Modo

Encontra todos os modos para a coluna.

O modo é o valor que aparece mais na coluna. Se vários valores aparecerem no mesmo número de vezes, a coluna pode ter vários modos.

Como medida de tendência central, o modo é mais robusto para os forasteiros do que a média, e pode ser usado com dados nominais também.

Desvio padrão da população

Calcula o desvio padrão da população para os valores da coluna.

Esta estatística pressupõe que os valores da coluna representam toda a população. Se os seus dados forem apenas uma amostra da população, deve calcular o desvio padrão utilizando o desvio padrão da amostra. No entanto, em grandes conjuntos de dados, as duas estatísticas retornam valores aproximadamente iguais.

O desvio padrão é calculado como a raiz quadrada da variação da coluna. Esta estatística captura a quantidade de variabilidade na coluna.

Variação populacional

Calcula a variação populacional para os valores da coluna.

A variação mede o número de números que se espalha. Se a variação é zero, todos os números são os mesmos.

Esta estatística pressupõe que a coluna de valores representa toda a população. Se os seus dados contiver apenas uma amostra dos valores, deverá calcular a variação utilizando a variação da amostra.

A função Excel equivalente é VAR.P.

Produto

Calcula o produto dos elementos da coluna.

Para obter o produto, você tem vários todos os números na coluna. O resultado não é, por si só, útil como uma estatística descritiva, mas a função é útil para uma variedade de outros cálculos.

Intervalo

Calcula o alcance dos valores da coluna. A gama é definida como o valor máximo menos o valor mínimo

A kurtose da amostra

Calcula a kurtose da amostra para os valores da coluna.

A kurtose descreve a forma da distribuição de valores... isto é, o quão alta ou plana é a distribuição dos valores, em comparação com a distribuição normal.

  • A distribuição normal tem uma kurtose de 0.

  • Os elevados valores de kurtose indicam que a massa de probabilidade está concentrada em torno de um pico, ou na cauda da distribuição.

  • Os valores negativos da kurtose indicam uma distribuição relativamente plana.

Distorção da amostra

Calcula a distorção da amostra para os valores da coluna.

Skew descreve se a maior parte dos valores estão no centro, deslocados para a esquerda, ou deslocados para a direita. Duas distribuições podem ter o mesmo desvio médio e padrão, mas ser moldada de forma muito diferente. Você pode usar a distorção e a kurtose para caracterizar a forma.

  • Valores negativos significam que a distribuição é desviada para a esquerda.

  • 0 denota a distribuição normal.

  • Valores positivos de distorção significam que a distribuição é desviada para a direita.

Desvio padrão da amostra

Calcula o desvio padrão da amostra para os valores da coluna.

O desvio padrão da amostra mede a propagação dos valores na coluna da média. Representa a distância média entre os valores dos dados no conjunto e a média.

Esta estatística pressupõe que os valores da coluna representam uma amostra da população. Se os seus dados representam toda a população, deve calcular o desvio padrão usando o desvio padrão da População.

A função Excel equivalente é ST. DEV.S.

Variação da amostra

Calcula a variação da amostra para os valores da coluna.

Este método pressupõe que os valores da coluna representam uma amostra da população. Se a coluna contiver toda a população, deve usar a variação padrão da População.

A função Excel equivalente é VAR.S.

Soma

Calcula a soma dos valores da coluna.

Exemplos

As seguintes experiências na Galeria Azure AI demonstram como pode criar um relatório sumário que contenha estatísticas descritivas para um conjunto de dados inteiro. O relatório resumida contém apenas estatísticas gerais; no entanto, pode guardá-lo como um conjunto de dados e, em seguida, adicionar estatísticas mais detalhadas, usando as opções em Estatísticas Elementares computacional.

Notas técnicas

Esta secção contém detalhes de implementação, dicas e respostas a perguntas frequentes.

Dica

As seguintes condições devem ser satisfeitas ao utilizar o módulo de Estatísticas Elementares do Cálculo :

  • Deve haver um número suficiente de pontos de dados (linhas) para calcular a estatística selecionada. Por exemplo, calcular o desvio padrão da amostra requer pelo menos dois pontos de dados; caso contrário, o resultado é NaN.
  • As colunas de entrada devem ser numéricas ou booleanas.

Por predefinição, todas as colunas numéricas são selecionadas. No entanto, se quaisquer colunas numéricas forem marcadas como categóricas, poderá obter o seguinte erro: " Erro 0056: Coluna com nome> de coluna de nome <não está numa categoria permitida." Para corrigir o erro, adicione uma instância do módulo de Metadados editar, selecione a coluna com o problema e use a opção Remover categoricamente.

Detalhes de implementação

As colunas booleanas são processadas da seguinte forma:

  • MIN é calculado como lógico E.

  • MAX é calculado como OR lógico.

  • RANGE verifica se o número de valores únicos na coluna é igual a 2.

  • Os valores em falta são ignorados.

  • Para estatísticas que requerem cálculos de pontos flutuantes, Verdadeiro = 1.0 e Falso = 0,0

Entradas esperadas

Nome Tipo Description
Conjunto de dados Tabela de Dados Conjunto de dados de entrada

Parâmetros do módulo

Nome Intervalo Tipo Predefinição Description
Método Lista Método das estatísticas elementares Seleciona um método estatístico para usar em cálculos. Veja como utilizar a secção para obter a lista de valores.
Conjunto de colunas qualquer Seleção de Colunas NumericAll Seleciona as colunas para as quais calcular a estatística
Encomenda >=1 Número inteiro 3 Especifica um valor para a ordem de momento central (usado apenas para o kth momento central)

Saída

Nome Tipo Description
Conjunto de dados de resultados Tabela de Dados Conjunto de dados de saída

Exceções

Exceção Description
Erro 0017 A exceção ocorre se uma ou mais colunas especificadas tiverem um tipo que não é suportado pelo módulo atual.

Para obter uma lista de erros específicos dos módulos Studio (clássicos), consulte Machine Learning Códigos de Erro.

Para obter uma lista de exceções da API, consulte Machine Learning CÓDIGOs de Erro da API REST.

Ver também

Funções Estatísticas
elementar
Resumir Dados
Lista de Módulos A-Z