Zufällige Gesamtstrukturen und Auswählen von Architekturen
Das Experimentieren mit Architekturen ist häufig ein wichtiger Schwerpunkt bei der Entwicklung effektiver moderner Modelle. Wir haben dies bis zu einem gewissen Grad mit Entscheidungsstrukturen getan, wobei die einzige Grenze dafür unsere Vorstellungskraft und vielleicht der Arbeitsspeicher des Computers ist. Eine umfassendere Betrachtung von Entscheidungsstrukturen hat zu einer sehr beliebten Modellarchitektur geführt, mit der sich die Tendenz von Entscheidungsstrukturen zur Überanpassung der Daten reduzieren lässt.
Was ist eine zufällige Gesamtstruktur?
Bei einer zufälligen Gesamtstruktur handelt es sich um eine Sammlung von Entscheidungsstrukturen, die zusammen verwendet werden, um abzuschätzen, welche Bezeichnung einer Stichprobe zugewiesen werden soll. Wenn wir beispielsweise eine zufällige Gesamtstruktur für die Vorhersage von Medaillengewinnern trainieren, können wir 100 verschiedene Entscheidungsstrukturen trainieren. Wir würden alle Strukturen unabhängig voneinander verwenden, um eine Vorhersage zu treffen. Anhand dieser Strukturen würde quasi darüber abgestimmt, ob Sportler*innen eine Medaille gewinnen, und damit eine endgültige Entscheidung getroffen werden.
Wie wird eine zufällige Gesamtstruktur trainiert?
Zufällige Gesamtstrukturen basieren auf der Idee, dass eine einzelne Entscheidungsstruktur stark verzerrt oder überangepasst ist, während mehrere trainierte Entscheidungsstrukturen auf unterschiedliche Weise verzerrt sind. Dafür müssen alle Strukturen unabhängig voneinander und jeweils mit einem etwas anderen Trainingssatz trainiert werden.
Eine bestimmte Anzahl von Stichproben – in diesem Fall Athlet*innen – wird aus dem gesamten Trainingssatz extrahiert, um eine einzelne Entscheidungsstruktur zu trainieren. Jede Stichprobe kann mehr als einmal ausgewählt werden. Diese Auswahl erfolgt nach dem Zufallsprinzip. Die Struktur wird auf die übliche Weise trainiert. Dieser Vorgang wird für jede Struktur wiederholt. Da für jede Struktur eine andere Kombination von Trainingsbeispielen verwendet wird, wird jede Struktur anders trainiert und im Vergleich zu den anderen Strukturen auf eine andere Weise verzerrt.
Vorteile einer zufälligen Gesamtstruktur
Die Leistung von zufälligen Gesamtstrukturen ist häufig sehr beeindruckend und lässt sich durchaus mit denen neuronaler Netze vergleichen, bei denen es sich um einen weiteren beliebten und extrem leistungsfähigen Modelltyp handelt. Im Gegensatz zu neuronalen Netzen lassen sich Modelle mit zufälligen Gesamtstrukturen einfach trainieren: Moderne Frameworks bieten hilfreiche Methoden, für die nur wenige Codezeilen nötig sind. Zufällige Gesamtstrukturen lassen sich schnell trainieren. Zudem lässt sich damit auch ohne umfangreiche Datasets eine gute Leistung erzielen. Dadurch unterscheiden sie sich von neuronalen Netzen, deren Training oft mehrere Minuten bis Tage dauert, viel Erfahrung und häufig sehr umfangreiche Datasets erfordert. Die architektonischen Entscheidungen für zufällige Gesamtstrukturen sind wesentlich einfacher als die für neuronale Netze, jedoch komplexer als bei Modellen wie der linearen Regression.
Nachteile einer zufälligen Gesamtstruktur
Der größte Nachteil von zufälligen Gesamtstrukturen ist, dass sie schwer zu verstehen sind. Diese Modelle sind zwar völlig transparent – jede Struktur kann eingesehen und verstanden werden –, doch sie enthalten oft so viele Strukturen, dass dies praktisch unmöglich ist.
Wie kann ich diese Architekturen anpassen?
Wie bei mehreren Modellen gibt es auch bei zufälligen Gesamtstrukturen verschiedene architektonische Optionen. Am einfachsten lässt sich die Größe der Gesamtstruktur einschätzen: die Anzahl der Strukturen und ihre Größe. So wäre es beispielsweise möglich, eine Gesamtstruktur zur Vorhersage von Medaillengewinnern mit 100 Strukturen mit einer maximalen Tiefe von jeweils sechs Knoten anzufordern. Das bedeutet, dass die endgültige Entscheidung, ob Sportler*innen eine Medaille gewinnen, mit maximal sechs "if"-Anweisungen getroffen werden muss.
Wie bereits gesehen, steigt mit zunehmender Größe einer Struktur in Bezug auf die Tiefe oder die Anzahl der Blätter die Wahrscheinlichkeit einer Überanpassung der Daten, mit denen trainiert wird. Diese Einschränkung gilt auch für zufällige Gesamtstrukturen. Bei zufälligen Gesamtstrukturen kann dem jedoch entgegengewirkt werden, indem die Anzahl der Strukturen erhöht wird, vorausgesetzt, jede Struktur wird auf eine andere Weise verzerrt. Wir können die einzelnen Strukturen auch auf eine bestimmte Anzahl von Merkmalen beschränken oder das Erstellen von Blättern verhindern, wenn dies nur einen geringfügigen Einfluss auf die Trainingsleistung hat. Die Möglichkeit, mit einer zufälligen Gesamtstruktur gute Vorhersagen zu treffen, ist nicht unbegrenzt. Da nur eine begrenzte Anzahl von Trainingsdaten vorliegt, führen größere und mehr Strukturen ab einem gewissen Punkt zu keiner weiteren Verbesserung.