So, wir wollen uns also jetzt mit einem neuen Kapitel beschäftigen, nämlich wie man
normale Netze qualitativ verstehbar macht und dann eben auch in Worten beschreiben kann,
nicht nur in Zahlen. Also gehen wir noch mal von vorne los. Wir haben einen Datensatz,
das heißt ich habe X und Y Daten. Daraus möchte ich jetzt eben die Frage stellen,
welche X-Werte, welche Komponenten in dem X-Vector brauche ich wirklich, um dieses Y tatsächlich
zu beschreiben. Ja gut, dann wäre unser Ansatz also jetzt zu sagen, bauen wir ein Modell F,
was den Zusammenhang zwischen dem X und Y beschreibt. Und dann gucke ich mir an,
welche Inputvariablen auf der X-Seite ich tatsächlich brauche, um das Y zu erklären.
Und dann werfe ich eben möglichst viele von den X-Komponenten raus, damit ich ein möglichst
elegantes Modell habe, wo man eben nicht so viele Daten sammeln muss, um das immer auszurechnen.
So, wie man ein Modell baut, haben wir uns ja in den letzten Stunden hier ein bisschen angeschaut.
Nämlich, ich habe also jetzt hier die Inputvektoren und rechne damit ein normales Netz,
was ja im Prinzip jeden möglichen Datensatz beschreiben kann und kann lernen,
wie die Parameter da innen drin aussehen. Wenn ich das habe, bleibt die Frage,
wie kann ich denn jetzt entscheiden, ich habe ja das Modell schon, wie kann ich denn jetzt entscheiden,
wie wichtig die Inputfaktoren waren. Den Test, der am ältesten ist und den Sie eben auch in der
Literatur immer wieder finden, das ist da oben der, den habe ich als Outputtest beschrieben,
der macht folgende Überlegungen. Der sagt, naja, ich nehme mir die Errorfunktion her. Und diese
Errorfunktion hängt also jetzt erstmal von allen Variablen ab, also von allen Inputvariablen,
die ich am Anfang zur Verfügung hatte. Und jetzt frage ich mich, wenn ich einen Inputfaktor
weglassen würde, also wenn ich den Konstanz setze auf seinen Mittelwert, wie würde dann die Errorfunktion
schlechter werden? Weil ich habe hier weniger Inputinformation, also im Zweifelsfall sollte
sie schlechter werden. Und dieser Abstand hier, wie die Errorfunktion anwächst unter Vernachlässigung
von einer Information hier zwischendurch, kann ich natürlich im Prinzip für jeden Inputfaktor hier
dann durchprobieren. Und dann sehe ich, aha, welche Inputfaktoren waren mir jetzt besonders
wichtig und welche Inputfaktoren kann ich vergessen, weil die machen eh nichts aus.
Dieser grundlegende Gedankengang, der ist lange Zeit immer als, sagen wir mal, ja, benutzt worden.
Ob der jetzt einfach ist, hängt davon ab, wie Sie es betrachten. Rechentechnisch gesehen ist
ja sehr viel Arbeit. Und eigentlich ist das hier, was hier steht, auch nur eine Annäherung an das,
was Sie in Wirklichkeit wollen. Was Sie in Wirklichkeit wollen ist, dass Sie hier den Error von
dem kompletten Modell haben. Und was Sie dann machen müssten ist, dass Sie den Error für ein
Modell hernehmen, wo der Input komplett gestrichen ist, und dann rechnen Sie das Ganze nochmal neu.
Aber diese, dann müsste ich ja N plus eins komplette Modelle rechnen, nur um zu entscheiden,
ob ein bestimmter Inputfaktor jetzt überflüssig ist oder nicht. Diese Arbeit ist viel zu groß.
Also macht man eben genau das nicht, sondern geht hin und sagt, naja, gut, also statt ein neues
Modell zu rechnen, bleibe ich beim selben Modell, aber setze den einen Inputfaktor hier konstant
und mache dann diesen Vergleich. Also auch das ist nur als Test eine Annäherung an das, was man
Wirklichkeit haben wollte. Und die endgültige Berechnung, wenn Sie das in die Richtung ins
Extrem treiben wollen, würde ja nicht mal genügen, ein einzelnes Modell zu laden. Wir haben ja gesehen,
die sind unzuverlässig. Dann müssten Sie für jeden diese Errorberechnung hier immer ein
Ensemble Modell angucken. Also klingt nicht so, als sei das besonders praktikabel, aber ist immer noch
ein ein bekannter Test. Der wird dann nicht fürs Ensemble, sondern für ein einzelnes Modell angeguckt.
Und dann kriegen Sie mal einen ersten Eindruck davon, welche Variablen jetzt wichtig sind und welche nicht.
Ein anderer Test, den Sie machen könnten, der bezieht sich auf den Backpropagation Kalkül selber.
Der sagt, nimm bitte nicht die als Testinformationen des Errorverhalten auf der Output-Seite,
sondern nehmen diese Residual Errors, die hier unten rauskommen, für die verschiedenen Input-Komponenten.
Da könnte ich jetzt auch einen Test machen und sagen, ich nehme den mittleren, also über alle
Daten gemessen, den mittleren Delta-Faktor, der hier unten rauskommt, für die verschiedenen Input-Komponenten.
Was ist das? Das haben wir uns ja ganz am Anfang überlegt. Das ist die erste Ableitung der Error-Funktion
nach XI an diesen ganzen Datenstellen hier. Und das ist ja in dem Sinne, wenn Sie das so anschauen,
Presenters
Zugänglich über
Offener Zugang
Dauer
00:46:00 Min
Aufnahmedatum
2020-10-28
Hochgeladen am
2020-10-28 14:46:57
Sprache
de-DE