Nuances dos conjuntos de teste

6 minutos

Os conjuntos de testes são considerados as melhores práticas para a maioria dos aspetos do aprendizado de máquina, embora o campo ainda seja relativamente jovem e, portanto, exatamente como e quando é frequentemente debatido. Vamos passar por algumas coisas a considerar.

Conjuntos de testes podem induzir em erro

Embora os conjuntos de teste sejam úteis para identificar o excesso de treinamento, eles podem nos fornecer uma falsa confiança. Especificamente, os conjuntos de teste só são úteis se refletirem dados que esperamos ver no mundo real. Por exemplo, nosso conjunto de testes é muito pequeno, então não será representativo da variedade de dados que provavelmente veremos no mundo real. Os conjuntos de dados de teste também são tão bons quanto sua origem. Se nosso conjunto de dados de teste vier de uma fonte tendenciosa, nossas métricas não refletirão como as coisas se comportarão no mundo real.

Por exemplo, digamos que estamos tentando encontrar a relação entre o número de resgates e a idade em que um cão começou a treinar. Se o nosso conjunto de testes fosse apenas três cães, é possível que estes cães não sejam uma boa representação da grande variedade de cães de trabalho no mundo real. Além disso, imagine que obtivemos nosso conjunto de teste de um único criador que não sabe como trabalhar com filhotes. Nosso modelo pode prever que cães mais velhos são melhores para treinar, e nosso conjunto de dados de teste confirmaria isso, quando na verdade outros treinadores podem ter enorme sucesso com animais mais jovens.

Os conjuntos de teste não são gratuitos

Já vimos que quanto mais dados de treinamento tivermos, menor a probabilidade de nosso modelo se sobreadequar. Da mesma forma, quanto maiores forem os conjuntos de testes, mais sentimos que podemos confiar nos resultados dos nossos testes. No entanto, geralmente trabalhamos com quantidades finitas de dados, e um ponto de dados não pode estar tanto no treinamento quanto no conjunto de testes. Isso significa que, à medida que obtemos conjuntos de teste maiores, obtemos conjuntos de dados de treinamento menores e vice-versa. Exatamente quantos dados devem ser sacrificados para aparecer no conjunto de dados de teste depende de circunstâncias individuais, com qualquer coisa entre 10-50% sendo relativamente comum, dependendo do volume de dados disponíveis.

Treinar e testar não é a única abordagem

Vale a pena ter em mente que treinar e testar é comum, mas não é a única abordagem amplamente utilizada. Duas das alternativas mais comuns são os métodos de abordagem hold-out e abordagem estatística .

A abordagem do hold-out

A abordagem hold-out é como treinar e testar, mas em vez de dividir um conjunto de dados em dois, ele é dividido em três: treinamento, teste (também conhecido como validação) e hold-out. Os conjuntos de dados de treinamento e teste são como descrevemos anteriormente. O conjunto de dados de retenção é um tipo de conjunto de teste que é usado apenas uma vez, quando estamos prontos para implantar nosso modelo para uso no mundo real. Em outras palavras, ele não é usado até que terminemos de experimentar diferentes tipos de regimes de treinamento, diferentes tipos de modelos e assim por diante.

Esta abordagem aborda o fato de que geralmente experimentamos diferentes modelos e regimes de treinamento. Por exemplo, ajustamos um modelo, achamos que ele não funciona bem com o conjunto de dados de teste, alteramos alguns aspetos do modelo que está sendo treinado e tentamos novamente até obter um bom resultado. Isso significa que estamos alterando propositalmente nosso modelo para trabalhar para um determinado conjunto de dados, assim como o treinamento normal faz com o conjunto de dados de treinamento. Ao fazer isso, podemos acabar com um modelo que é essencialmente muito treinado para trabalhar em nosso conjunto de dados de teste.

A ideia de um terceiro conjunto de dados é que também podemos testar isso. Essa abordagem significa dividir os dados de três maneiras, o que significa que começamos com ainda menos dados de treinamento. Se não tivermos muitos dados para trabalhar, essa abordagem pode reduzir nossa capacidade de obter um bom modelo.

Abordagens estatísticas

Modelos mais simples que se originaram em estatísticas geralmente não precisam de conjuntos de dados de teste. Em vez disso, podemos calcular o grau em que o modelo está sobreajustado diretamente como significância estatística: um valor p .

Estes métodos estatísticos são poderosos, bem estabelecidos e formam a base da ciência moderna. A vantagem é que o conjunto de treinamento nunca precisa ser dividido, e temos uma compreensão muito mais precisa de quão confiantes podemos estar sobre um modelo. Por exemplo, um valor p de 0,01 significa que há uma chance muito pequena de que nosso modelo tenha encontrado uma relação que realmente não existe no mundo real. Por outro lado, um valor p de 0,5 significa que, embora nosso modelo possa parecer bom com nossos dados de treinamento, não será melhor do que virar uma moeda no mundo real.

A desvantagem dessas abordagens é que elas só são facilmente aplicadas a certos tipos de modelos, como os modelos de regressão linear com os quais temos praticado. Para todos os modelos, exceto os mais simples, esses cálculos podem ser extremamente complexos de executar corretamente, e por isso estão fora do escopo para o curso atual. Eles também sofrem a mesma limitação em relação à seleção de dados; Se nossos dados de treinamento forem tendenciosos, nossos valores P serão enganosos.