Share via


Computar estatísticas elementares

Importante

O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).

A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.

Calcula as estatísticas de resumo especificadas para colunas do conjunto de dados selecionado

Categoria: funções estatísticas

Observação

aplica-se a: somente Machine Learning Studio (clássico)

Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.

Visão geral do módulo

este artigo descreve como usar o módulo de estatísticas elementares de computação no Machine Learning Studio (clássico), para gerar um relatório de resumo para seu conjunto de módulos que lista as principais estatísticas, como média, desvio padrão e o intervalo de valores para cada uma das colunas selecionadas.

Este relatório é útil para analisar a tendência central, a dispersão e o formato dos dados.

Como configurar estatísticas elementares de computação

  1. Adicione o módulo de estatísticas elementares de computação ao seu experimento. você pode encontrar esse módulo na categoria funções estatísticas no Machine Learning Studio (clássico).

  2. Conexão um dataset que contém as colunas que você deseja analisar.

  3. Clique na lista suspensa método e escolha o tipo de valor que você deseja calcular para cada coluna.

    Consulte a seção estatísticas com suporte para obter uma lista completa de estatísticas disponíveis e o que elas significam.

  4. Por padrão, o valor que você selecionou na lista suspensa do método será calculado para todas as colunas no conjunto de dados que têm um tipo de dado numérico. Se qualquer coluna tiver valores que impeçam que o valor seja calculado, um erro será gerado e o relatório não será criado.

    Para evitar esse erro, use o seletor de coluna para escolher as colunas numéricas para as quais você deseja um relatório. Todas as colunas escolhidas devem ser numéricas.

  5. Execute o experimento.

Resultados

O relatório gerado inclui o nome de cada coluna e a estatística calculada. Por exemplo, a tabela a seguir mostra as estatísticas geradas para a coluna MPG .

DeviationSquared (MPG) Máx. (MPG) Mín. (MPG)
9674,312 25,21951 13

Dica

Cada vez que você executa as estatísticas elementares de computação, ele pode gerar apenas uma única estatística de resumo para cada uma das colunas selecionadas. No entanto, você pode usar os módulos adicionar colunas ou adicionar linhas para mesclar os resultados em uma única tabela, como no exemplo anterior.

Estatísticas com suporte

Este módulo dá suporte às seguintes estatísticas descritivas padrão.

Desvio quadrado

Calcula o desvio quadrado dos valores da coluna. Também conhecida como a soma dos quadrados.

O desvio quadrado é uma medida de quão longe os valores são distribuídos da média.

Média geométrica

Calcula a média geométrica dos valores de coluna.

A média geométrica pode ser usada para medir a tendência central de um conjunto de números. Em comparação com a média aritmética, ela é menos afetada por um pequeno número de valores extremos. Ele também pode ser usado para comparar medidas em escalas diferentes, pois ela normaliza efetivamente as escalas dos números que estão sendo comparados. Às vezes, o meio geométrico é usado para estimar as taxas de crescimento anual compostas.

a função equivalente no Excel é geomédia.

Média harmônica

Calcula a média harmônica dos valores de coluna.

Para calcular a média harmônica, todos os valores são convertidos em seus recíprocos e, em seguida, a média é obtida desses valores. A média harmônica é o recíproco dessa média. Se os valores de coluna forem positivos, números maiores serão ponderados em menos de números menores.

A média harmônica é sempre menor que a média geométrica, que é sempre menor que a média aritmética. A média harmônica é útil para a média de variáveis que representam taxas, como velocidade (distância ao longo do tempo) ou vendas por trimestre.

a função equivalente no Excel é HARMEAN.

Distância interquartílica

Calcula a diferença interquartil para o primeiro e o último quartil dos valores da coluna. Também chamado de intervalo quartil. Quando o quartil cai entre dois números, o valor de quartil é a média dos dois valores em cada lado do corte.

O valor quartil divide a coluna de valores em quatro grupos com um número igual de valores. Portanto, um trimestre dos valores é menor ou igual ao 25º percentil. Três trimestres dos valores são menores ou iguais ao 75th percentil. Ao revisar o intervalo quartil, você pode ter uma ideia de quão disseminar os valores de dados.

Momento central K-ésimo

Calcula o momento central K-ésimo para os valores de coluna.

Ao calcular o momento central K-ésimo, você também deve especificar o pedido, ou seja, o valor de K. O valor de k pode variar de 0 para qualquer valor inteiro permitido, embora valores de ordem mais altos geralmente não sejam significativos.

Geralmente, em estatísticas descritivas, um momento é uma medida que descreve a forma de um conjunto de pontos. Os momentos centrais são momentos sobre a média, que geralmente são usados porque fornecem informações melhores sobre a forma da distribuição. Uma ordem de 2 geralmente representa a variância; uma ordem de 4 é usada para curtose. O primeiro momento da ordem é a média. Assim, a coleção de todos os momentos descreve exclusivamente a distribuição de valores na coluna.

Max

Localiza o valor máximo na coluna.

Média

Calcula a média aritmética dos valores de coluna.

a função equivalente em Excel é média.

Desvio médio

Calcula o desvio de média absoluta para os valores de coluna.

Ou seja, a média é calculada para a coluna e o desvio calculado para cada valor na coluna. A média dos valores absolutos dos valores de desvio individuais é o desvio médio.

Essa estatística informa a você como se espalhar da média de sua coluna de números.

Mediana

Retorna a mediana dos valores de coluna.

A mediana é o número no meio de uma coluna de números. Se houver um número par de números na coluna, a mediana será a média dos dois números no meio.

A mediana, junto com a média e o modo, é uma das três estatísticas que mede a tendência central. Se os valores forem simétricos em torno da média, os três números serão iguais. No entanto, a mediana é mais robusta para exceções do que a média.

Desvio médio

Calcula o desvio mediano da coluna.

Ou seja, a mediana é calculada para a coluna e o desvio calculado para cada valor na coluna. O valor mediano dos valores absolutos dos valores de desvio individuais é retirado.

O desvio absoluto mediano também é conhecido como MAD e é usado para descrever a variabilidade de uma amostra de números. O MAD informa como se propagar da média de sua coluna de números.

Min

Retorna o valor mínimo dos valores de coluna.

Mode

Localiza todos os modos para a coluna.

O modo é o valor que aparece mais na coluna. Se vários valores aparecerem com o mesmo número de vezes, a coluna poderá ter vários modos.

Como medida de tendência central, o modo é mais robusto para saídas do que a média e também pode ser usado com dados nominais.

Desvio padrão da população

Calcula o desvio padrão da população para os valores de coluna.

Essa estatística pressu que os valores de coluna representam toda a população. Se os dados são apenas uma amostra da população, você deve calcular o desvio padrão usando o desvio padrão de exemplo. No entanto, em grandes conjuntos de dados, as duas estatísticas retornam valores aproximadamente iguais.

O desvio padrão é calculado como a raiz quadrada da variação da coluna. Essa estatística captura a quantidade de variabilidade na coluna.

Variância da população

Calcula a variação da população para os valores de coluna.

A variação mede quanto um conjunto de números é distribuído. Se a variação for zero, todos os números serão os mesmos.

Essa estatística pressu que a coluna de valores representa toda a população. Se os dados contiver apenas uma amostra dos valores, você deverá calcular a variância usando Variância de exemplo.

A função Excel equivalente é VAR.P.

Produto

Calcula o produto dos elementos da coluna.

Para obter o produto, você pode vários números na coluna. O resultado em si não é útil como uma estatística descritiva, mas a função é útil para uma variedade de outros cálculos.

Intervalo

Calcula o intervalo dos valores de coluna. O intervalo é definido como o valor máximo menos o valor mínimo

Curtose de exemplo

Calcula a amostra de curtose para os valores de coluna.

A rotina descreve a forma da distribuição de valores, ou seja, o pico ou o tamanho da distribuição de valores, em comparação com a distribuição normal.

  • A distribuição normal tem uma curtose de 0.

  • Valores altos de curtose indicam que a massa de probabilidade está concentrada em torno de um pico ou na parte final da distribuição.

  • Valores de curtose negativos indicam uma distribuição relativamente simples.

Distorção de exemplo

Calcula a distorção de exemplo para os valores de coluna.

Distorção descreve se a maior parte dos valores está no centro, deslocada para a esquerda ou deslocada para a direita. Duas distribuições podem ter a mesma média e desvio padrão, mas ser formaadas de maneira muito diferente. Você pode usar distorção e curtose para caracterizar a forma.

  • Valores de distorção negativos significa que a distribuição é distorcida para a esquerda.

  • 0 indica a distribuição normal.

  • Valores de distorção positivos significam que a distribuição é distorcida para a direita.

Desvio padrão do exemplo

Calcula o desvio padrão de exemplo para os valores de coluna.

O desvio padrão da amostra mede como os valores distribuídos na coluna são da média. Ele representa a distância média entre os valores dos dados no conjunto e a média.

Essa estatística pressu que os valores de coluna representam uma amostra da população. Se os dados representarem toda a população, você deverá calcular o desvio padrão usando o Desvio padrão de população.

A função Excel equivalente é ST. DEV.S.

Variância de exemplo

Calcula a variação de exemplo para os valores de coluna.

Esse método presume que os valores de coluna representam uma amostra da população. Se a coluna contiver toda a população, você deverá usar Variação padrão de população.

A função Excel equivalente é VAR.S.

Somar

Calcula a soma dos valores de coluna.

Exemplos

Os experimentos a seguir no Galeria de IA do Azure demonstram como você pode criar um relatório de resumo que contém estatísticas descritivas para um todo o conjuntos de dados. O relatório de resumo contém apenas estatísticas gerais; No entanto, você pode salvá-lo como um conjuntos de dados e, em seguida, adicionar estatísticas mais detalhadas, usando as opções em Estatísticas Elementares de Computação.

Observações técnicas

Esta seção contém detalhes de implementação, dicas e respostas para perguntas frequentes.

Dica

As seguintes condições devem ser atendidas ao usar o módulo Estatísticas Elementares de Computação:

  • Deve haver um número suficiente de pontos de dados (linhas) para calcular a estatística selecionada. Por exemplo, para calcular o desvio padrão de exemplo , é necessário pelo menos dois pontos de dados; caso contrário, o resultado será NaN.
  • Colunas de entrada devem ser numéricas ou boolianas.

Por padrão, todas as colunas numéricas são selecionadas. No entanto, se qualquer coluna numérica for marcada como categórica, você poderá receber o seguinte erro: "Erro 0056: Coluna <> com nome de coluna não está em uma categoria permitida". Para corrigir o erro, adicione uma instância do módulo Editar Metadados, selecione a coluna com o problema e use a opção Remover categórico.

Detalhes de implementação

As colunas boolianas são processadas como a seguir:

  • MÍN é calculado como a lógica AND.

  • MÁX é calculado como a lógica OR.

  • INTERVALO verifica se o número de valores exclusivos na coluna é igual a 2.

  • Os valores ausentes são ignorados.

  • Para estatísticas que exigem cálculos de ponto flutuante, True = 1,0, False = 0,0

Entradas esperadas

Nome Tipo Descrição
Dataset Tabela de Dados Conjunto de dados de entrada

Parâmetros do módulo

Nome Intervalo Type Padrão Descrição
Método Lista Método de estatística elementar Seleciona um método estatístico a ser usado em cálculos. Consulte a seção Como usar para ver a lista de valores.
Conjunto de colunas any ColumnSelection NumericAll Selecione as colunas para as quais calcular a estatística
Order >=1 Integer 3 Especifica um valor para a ordem de momento central (usado somente para o momento central enésimo)

Saída

Nome Tipo Descrição
Conjunto de dados de resultados Tabela de Dados Conjunto de dados de saída

Exceções

Exceção Descrição
Erro 0017 Ocorre uma exceção se uma ou mais colunas especificadas tem um tipo que não é suportado pelo módulo atual.

para obter uma lista de erros específicos para módulos do Studio (clássicos), consulte Machine Learning códigos de erro.

para obter uma lista de exceções de api, consulte Machine Learning códigos de erro da api REST.

Confira também

Funções estatísticas
elementar
Resumir Dados
Lista de Módulo A-Z