Partilhar via


Hipótese de teste Usando t-Test

Importante

O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.

A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).

A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.

Compara meios de duas colunas usando um t-test

Categoria: Funções Estatísticas

Nota

Aplica-se a: Machine Learning Studio (clássico) apenas

Módulos semelhantes de arrasto e queda estão disponíveis em Azure Machine Learning designer.

Visão geral do módulo

Este artigo descreve como usar a hipótese de teste Usando o módulo t-Test em Machine Learning Studio (clássico), para gerar pontuações para três tipos de t-testes:

  • T-teste de amostra única
  • T-teste emparelhado
  • T-test não remunerado

Em geral, um t-test ajuda a comparar se dois grupos têm meios diferentes. Por exemplo, suponha que está a avaliar os dados do ensaio para pacientes que receberam o fármaco A vs. pacientes que receberam o fármaco B, e você precisa comparar uma métrica de taxa de recuperação para ambos os grupos. A hipótese nupálula pressupõe que a taxa de recuperação é a mesma em ambos os grupos e, além disso, que os valores da taxa de recuperação têm uma distribuição normal em ambos os grupos.

Ao utilizar a hipótese do teste Utilizando t-Test e fornecendo as colunas que contêm as taxas de recuperação como entrada, pode obter pontuações que indiquem se a diferença é significativa, o que significaria que a hipótese de nulo deve ser rejeitada. O teste tem em conta fatores como o tamanho da diferença entre os valores, o tamanho da amostra (maior é melhor) e o tamanho do desvio padrão (menor é melhor).

Ao rever os resultados da hipótese de teste Utilizando o módulo t-Test , pode determinar se a hipótese de nulo é VERDADEIRA ou FALSA, e rever as pontuações de confiança (P) do t-test.

Como escolher um t-teste

Escolha um único teste de amostra t quando estas condições se aplicarem:

  • Tens uma única amostra de pontuação.

  • Todas as pontuações são independentes umas das outras.

  • A distribuição de amostragem de xˉ é normal.

Em geral, o t-teste de amostra única é usado para comparar um valor médio com um número conhecido.

Escolha um t-teste emparelhado quando estas condições se aplicarem:

  • Tens um par de pontuações compatíveis. Por exemplo, você pode ter duas medidas diferentes por pessoa, ou pares de indivíduos combinados (como marido e mulher).

  • Cada par de pontuações é independente de todos os outros pares.

  • A distribuição de amostragem de d é normal.

Um t-test emparelhado é útil quando se compara casos relacionados. Ao calcular as diferenças entre as pontuações dos casos emparelhados, pode determinar se a diferença total é estatisticamente significativa.

Escolha um t-test sem saúde quando estas condições se aplicarem:

  • Tem duas amostras independentes de pontuações. Ou seja, não há base para emparelhar pontuações na amostra 1 com as da amostra 2.

  • Todas as pontuações dentro de uma amostra são independentes de todas as outras pontuações dentro dessa amostra.

  • A distribuição de amostragem de x1-x2 é normal.

  • Opcionalmente, satisfaça a exigência de que a variação entre os grupos seja aproximadamente igual.

Como configurar a hipótese do teste usando t-Test

Utilize um único conjunto de dados como entrada. As colunas que está a comparar devem estar no mesmo conjunto de dados.

Se precisar de comparar colunas de diferentes conjuntos de dados, pode isolar cada coluna para comparar utilizando Colunas Selecionadas no Conjunto de Dados e, em seguida, fundi-las num conjunto de dados utilizando Colunas adicionais.

  1. Adicione a hipótese do teste Utilizando o módulo t-Test à sua experiência.

    Pode encontrar este módulo na categoria Funções Estatísticas em Estúdio (clássico).

  2. Adicione o conjunto de dados que contém a coluna ou colunas que pretende analisar.

  3. Decida que tipo de teste t é apropriado para os seus dados. Veja como escolher um t-test.

  4. Amostra única: Se estiver a utilizar uma única amostra, desafase estes parâmetros:

    • Hipótese nula μ: Digite o valor a utilizar como média de hipótese nula para a amostra. Isto especifica o valor médio esperado contra o qual a média da amostra será testada.

    • Coluna-alvo: Utilize o Seletor de Colunas para escolher uma única coluna numérica para testes.

    • Tipo de hipótese: Escolha um teste de uma cauda ou duas caudas. O padrão é um teste de duas caudas. Este é o tipo de teste mais comum, no qual a distribuição esperada é simétrica em torno de zero.

      A opção One Tail GT é para uma cauda maior do que o teste. Este teste dá mais poder para detetar um efeito numa direção, não testando o efeito na outra direção.

      A opção One Tail LT dá uma cauda inferior a um teste.

    • α: Especificar um fator de confiança. Este valor é utilizado para avaliar o valor de P (a primeira saída do módulo). Se p for inferior ao fator de confiança, a hipótese nulo é rejeitada.

  5. Pares Exemplos: Se estiver a comparar duas amostras da mesma população, desacorda estes parâmetros:

    • Hipótese nula μ: Digite um valor que represente a diferença de amostra entre o par de amostras.

    • Coluna-alvo: Utilize o Seletor de Colunas para escolher as duas colunas numéricas para testar.

    • Tipo de hipótese: Selecione um teste de uma cauda ou de duas caudas. O padrão é um teste de duas caudas.

    • α: Especificar o fator de confiança. Este valor é utilizado para avaliar o valor de P (a primeira saída do módulo)> Se p for inferior ao fator de confiança, a hipótese nula é rejeitada.

  6. Amostras não pagas: Se comparar duas amostras não pagas, desacciver estes parâmetros:

    • Assuma igual variação: Desmarcar esta opção quando as amostras são de diferentes populações.
    • Hipótese nula μ1: Digite a média para a primeira coluna.
    • Hipótese nula μ2: Digite a média para a segunda coluna.
    • Colunas-alvo: Utilize o Seletor de Colunas para escolher duas colunas numéricas para testar.
    • Tipo de hipótese: Indicar se o teste é de uma cauda ou de duas caudas. O padrão é um teste de duas caudas.
    • α: Especificar o fator de confiança. Este valor é utilizado para avaliar o valor de P (a primeira saída do módulo)> Se p for inferior ao fator de confiança, a hipótese nula é rejeitada.
  7. Execute a experimentação.

Resultados

A saída do módulo é um conjunto de dados que contém as pontuações de t-test, e uma transformação que pode opcionalmente guardar para se recandidatar a este ou outro conjunto de dados usando a Apply Transformation.

O conjunto de dados de pontuações contém estes valores, independentemente do tipo de t-teste utilizado:

  • Uma pontuação de probabilidade que indica a confiança da hipótese nulo
  • Um valor que indique se a hipótese de nulo deve ser rejeitada

Dica

Lembre-se, o objetivo é determinar se pode rejeitar a hipótese de nulo. Uma pontuação de 0 não significa que deve aceitar a hipótese nula: significa que não tem dados suficientes e precisa de mais investigação.

Notas técnicas

O módulo designa automaticamente as colunas de saída de acordo com as seguintes convenções, dependendo do tipo de teste t selecionado, e se o resultado foi rejeitar ou aceitar a hipótese nulo.

Dadas as colunas de entrada com nomes {0} e {1}, o módulo cria os seguintes nomes:

Colunas SingleSampleSet ParesSamples Não costuradas
Coluna de saída P P_ss({0}) P_ps({0}, {1}) P_us({0}, {1})
Coluna de saída RejeitarH0 RejectH0_ss({0})" RejectH0_ps({0}, {1}) RejectH0_us({0}, {1})

Como as pontuações são calculadas

Este módulo calcula e utiliza o desvio padrão da amostra; portanto, a equação utiliza (n-1) no denominador.

Pontuações de computação para um teste de amostra única

Dada uma única amostra de pontuações, todas independentes umas das outras, e uma distribuição normal, a pontuação é calculada da seguinte forma:

  1. Tome a seguinte informação:

    • Uma única coluna de valores do conjunto de dados
    • O parâmetro de hipótese nulo (H0) μ0
    • A pontuação de confiança especificada por α
  2. Extrair o número de amostras (n).

  3. Calcular a média dos dados da amostra.

  4. Calcular o desvio padrão (s) dos dados da amostra.

  5. Calcular t e graus de liberdade (df):

    Formula for degrees of freedom

  6. Extrair probabilidade P da tabela de distribuição T usando t e df.

Pontuações de computação para um t-teste emparelhado

Dado um conjunto de pontuações combinado, com cada par independente do outro, e uma distribuição normal em cada conjunto, a pontuação é calculada da seguinte forma:

  1. Tome a seguinte informação:

    • Duas colunas de valores do conjunto de dados
    • O parâmetro d0 da hipótese nulo (H0)
    • A pontuação de confiança especificada por α
  2. Extrair um número de pares de amostras (n).

  3. Calcular a média das diferenças para os dados da amostra:

    formula for mean of differences

  4. Calcular o desvio padrão das diferenças (sd).

  5. Calcular t e os graus de liberdade (df):

    Formula for degrees of freedom df

  6. Extrair probabilidade (P) da tabela de distribuição (T) utilizando t e df.

Pontuações de computação para um t-test não remunerado

Tendo em conta duas amostras independentes de pontuações, com uma distribuição normal dos valores em cada amostra, a pontuação é calculada da seguinte forma:

  1. Tome a seguinte informação:

    • Um conjunto de dados que contém duas colunas de doubles
    • O parâmetro de hipótese nulo (H0) (d0)
    • A pontuação de confiança especificada por α
  2. Extrair uma série de amostras em cada grupo, n1 e n2.

  3. Calcular os meios para cada um dos conjuntos de amostras.

  4. Calcular o desvio padrão para cada grupo como s1 e s2.

  5. Calcular t e graus de liberdade (df):

Opcionalmente, satisfaça a exigência de que a variação entre os grupos seja aproximadamente igual:

  1. Calcular primeiro o desvio padrão em conjunto:

    formula for pooled standard distribution

  2. Se não houver suposição sobre a igualdade de variação, calcule da seguinte forma:

    formula for pooled standard deviation

  3. Extrair P da mesa de distribuição (T) utilizando t e df.

Calcular a hipótese nulo

A probabilidade da hipótese nulo, designada como P, é calculada da seguinte forma:

  • Se P < α, coloque a bandeira de rejeição para a Verdade.

  • Se P ≥ α, coloque a bandeira de rejeição em falso.

Entradas esperadas

Nome Tipo Description
Conjunto de dados Tabela de Dados Conjunto de dados de entrada

Parâmetros do módulo

Nome Intervalo Tipo Predefinição Description
Tipo de hipótese Qualquer Hipótese Duas caudas Tipo de hipótese nulo de t-teste do aluno
μ de hipóteses nulas Qualquer Float 0,0 Para o único t-teste de amostra, a média de nulo-hipótese para a amostra

Para o t-teste emparelhado, a diferença de amostra
Colunas-alvo(s) Qualquer Seleção de Colunas Nenhuma Padrão de seleção de colunas-alvo
Assuma variações iguais Qualquer Booleano Verdadeiro Assumir que variações de duas amostras são iguais

Aplica-se apenas a amostras não pagas
Hipótese nula μ1 Qualquer Float 0,0 Média de hipóteses nulas para a primeira amostra
α [0.0;1.0] Float 0.95 Fator de confiança (se P for inferior ao fator de confiança, a hipótese de nulo é rejeitada)

Saídas

Nome Tipo Description
P Tabela de Dados Uma pontuação de probabilidade que indica a confiança da hipótese nulo
Rejeitar H0 Tabela de Dados Valor que indica se a hipótese de nulo deve ser rejeitada

Exceções

Exceção Description
Erro 0003 A exceção ocorre se uma ou mais entradas forem nulas ou vazias.
Erro 0008 A exceção ocorre se o parâmetro não estiver ao alcance.
Erro 0017 A exceção ocorre se uma ou mais colunas especificadas tiverem um tipo que não é suportado pelo módulo atual.
Erro 0020 A exceção ocorre se o número de colunas em alguns dos conjuntos de dados passados para o módulo for demasiado pequeno.
Erro 0021 A exceção ocorre se o número de linhas em alguns dos conjuntos de dados passados para o módulo for demasiado pequeno.
Erro 0031 A exceção ocorre se o número de colunas no conjunto de colunas for inferior ao necessário.
Erro 0032 A exceção ocorre se o argumento não for um número.
Erro 0033 A exceção ocorre se o argumento for infinito.

Para obter uma lista de erros específicos dos módulos Studio (clássicos), consulte Machine Learning Códigos de Erro.

Para obter uma lista de exceções da API, consulte Machine Learning CÓDIGOs de Erro da API REST.

Ver também

Funções Estatísticas