Wie Menschen und Machine Learning-Modelle lernen
Ein Machine Learning-Modell ähnelt der Art und Weise, wie Menschen trainiert werden. Wie wird also lernt ein Mensch?
Angenommen, Sie kommen auf ein Feld, auf dem fünf verschiedene Sorten von Beeren wachsen, die Sie noch nie gesehen haben. Stellen Sie sich vor, Sie werden gebeten, 100 zufällige Beeren zu pflücken, darunter eine Beere von jeder der fünf verschiedenen Arten von Beerenpflanzen. Ihnen werden die Namen der fünf Beeren gesagt, die Sie gepflückt haben, eine von jeder Beerenart. Sie haben eine Himbeere, eine Heidelbeere, eine Brombeere, eine Erdbeere und eine schwarze Himbeere. Die anderen 95 Beeren, die Sie gepflückt haben, gehören zu einer dieser Arten von Beeren.
Da Sie in der Lage sind, die fünf verschiedenen Beerenarten zu benennen, sind Sie sich sicher, dass Sie die Arten der übrigen, zufällig ausgewählten 95 Beeren identifizieren können. Vielleicht sind einige Brombeeren nicht so reif, sodass sie kleiner sind und ein bisschen wie Himbeeren aussehen, und einige Heidelbeeren sind nicht so reif und sehen vielleicht eher schwarze Himbeeren aus. Aber selbst dann hätten Sie bei den 100 Beeren eine gute Vorstellung davon, welche Beere zu welchem Typ gehört, und Sie könnten alle 100 Beeren nach Typ sortieren.
Anschließend werden Sie gebeten, nur Himbeeren auf einem neuen, angrenzenden Feld zu pflücken. Sie sind sicher, dass Sie wissen, wie Himbeeren aussehen:
Sie führen diese Aufgabe aus und pflücken erfolgreich zehn Himbeeren.
Zur Erinnerung: Die anfänglichen 100 Beeren waren in Ihrem anfänglichen Datensatz. Sie haben die Eingabe (die 100 Beeren) erhalten, und Ihnen wurde die Ausgabe (die enthaltenen Beerenarten) erklärt. Sie haben sich dann selbst trainiert, um die von Ihnen gepflückten Beeren identifizieren zu können.
Anschließend haben wurden Sie getestet. Identifizieren Sie auf einem neuen Feld mit Beeren bei einer beliebigen Eingabe die Art der Beere und wählen Sie nur eine Ausgabe aus: Himbeeren. Sie haben sich andere Beeren (Eingabe) angeschaut, während Sie zwischen den Beerenpflanzen herumgelaufen sind. Sie haben Ihr mentales Modell von Beeren getestet und nur Himbeeren gepflückt. An diesem Punkt glauben Sie, dass Ihr mentales Modell von Beeren zu 100 % genau ist.
Aber dann entdecken Sie eine Beerenpflanze, die ähnlich wie eine Himbeere aussieht, aber doch etwas anders. Was Sie nicht wussten, ist, dass es auf dem neuen Beerenfeld eigentlich sechs Beerensorten gibt. Sie finden mehr Himbeeren, aber Sie pflücken auch einige der anderen Beeren und denken, dass es tatsächlich Himbeeren sein könnten, obwohl sie ein wenig anders aussehen:
Sowohl die neue Beere als auch eine Himbeere sehen anders aus als die anderen vier Beerenarten, aber sie sehen einander ähnlich. Es handelt sich dabei aber nicht um die gleiche Beerensorte. Der neue Typ Beere, den Sie gepflückt gaben, war eine Nutka-Himbeere.
In diesem Fall ist Ihr Dataset nicht groß genug. Es wäre ungenau, eine Nutka-Himbeere als normale Himbeeren zu klassifizieren, nur weil Sie denken, dass sie in eine der Beerenarten passen sollte, und Sie nicht wissen, dass es mehr als fünf Arten von Beeren gibt. Sie denken, dass Sie Beeren genauer identifizieren können, als es tatsächlich der Fall ist, weil Sie nicht alles wissen, was Sie wissen müssten, um genau zu sein.
Die Identifizierung von Beeren mag trivial erscheinen, aber die Implikationen gelten auch für Machine Learning-Lösungen. Wenn diese Art von Lösungen das Leben von Menschen betreffen, wie z. B. bei einem Raketenstart, müssen solche Fehler bei der Datenanalyse vermieden werden.