Como os seres humanos e os modelos de machine learning aprendem

Concluído

Um modelo de machine learning é treinado de maneira semelhante a como os seres humanos são treinados. Então, como um ser humano aprende?

O que acontecerá se você entrar em uma área na qual cinco tipos diferentes de frutos silvestres que nunca viu antes estão sendo cultivados? Imagine que você precisa colher 100 frutos silvestres aleatórios, incluindo um de cada um dos cinco tipos distintos de plantas. Alguém ensina a você os nomes dos cinco frutos silvestres colhidos, um de cada tipo de planta. Você tem uma framboesa, um mirtilo, uma amora, um morango e uma groselha. Os outros 95 frutos silvestres que você colheu são um desses tipos de frutos.

Conseguindo nomear os cinco tipos diferentes de frutos silvestres, você tem certeza de que pode identificar os tipos dos 95 frutos restantes, colhidos aleatoriamente. Talvez algumas amoras não estejam tão maduras e, portanto, sejam menores e se pareçam um pouco com as framboesas, e alguns mirtilos não estejam tão maduros e se pareçam um pouco com as groselhas. Mas, mesmo assim, para os 100 frutos silvestres, você terá uma ideia razoável de qual tipo é cada fruto silvestre e poderá classificar todos os 100 frutos por tipo.

Depois, você é solicitado a colher somente framboesas em um novo campo adjacente. Você está confiante de que conhece a aparência de uma framboesa:

Photo of a raspberry.

Você concluiu essa tarefa e coletou dez framboesas com êxito!

Para recapitular, os 100 frutos silvestres iniciais estavam no seu conjunto de dados inicial. Você recebeu a entrada (os 100 frutos silvestres) e a saída (os tipos de frutos silvestres incluídos) e você se treinou para identificar os frutos silvestres colhidos.

Em seguida, você recebeu um teste. Em um novo campo de frutos silvestres, dada qualquer entrada, identifique o tipo de fruto e selecione apenas uma saída: framboesas. Você examinou outros frutos (entrada) quando caminhou entre as plantas. Testou seu modelo mental de frutos silvestres e escolheu apenas framboesas. Neste ponto, você acredita que o seu modelo mental de frutos silvestres é 100% preciso.

Mas, depois, você identifica uma planta que se parece com uma framboesa, mas que é um pouco diferente. O que você não sabia é que havia, na verdade, seis tipos de frutos silvestres no novo campo de colheita. Você encontra mais framboesas, mas também colhe alguns dos outros frutos silvestres, pensando que eles podem, na verdade, ser framboesas, embora sejam um pouco diferentes:

Photo of a hand holding a thimbleberry.

O novo fruto e uma framboesa parecem diferentes dos outros quatro tipos de frutos, mas parecem semelhantes entre si. Mas elas não são o mesmo tipo de fruto silvestre. O novo tipo de fruto que você colheu era uma framboesa vermelha.

Nesse caso, seu conjunto de dados não é extenso o suficiente. É impreciso colocar uma framboesa vermelha com as framboesas apenas porque você acha que ela deve ser incluída em um dos tipos de frutos e não sabe que há mais de cinco tipos de frutos silvestres. Você acha que é mais preciso em identificar frutos silvestres do que realmente é, porque não sabe tudo de que precisa saber para ser preciso.

Identificar frutos silvestres pode parecer trivial, mas as implicações se aplicam às soluções de machine learning. Quando esses tipos de soluções afetam as vidas das pessoas, como em um lançamento de foguete, esses tipos de erros de análise de dados precisam ser evitados.