Und das hier ist diese Aufgabe von Minsky und Papert in dem Buch 1969, wo es gezeigt wurde,
dass man hinten Neuronen braucht, selbst wenn man relativ triviale Input-Output-Zusammenhänge
beschreibt. Der triviale Input-Output-Zusammenhang da oben ist das logische XOR. Und dann haben
Sie das 00 geht auf 0, 01 geht auf 1, 10 geht auf 1 und 11 geht wieder auf 0. Das heißt,
Sie haben nur vier Punkte, wo wirklich was passiert. Jetzt müssen Sie mit Schnittebenen
beschreiben, wie man dann diesen Zusammenhang zwischen den zwei Inputs und dem einen Output
ausdrückt. Die kommen noch in das Netz raus, das sieht so aus, wie es da steht. Das kann man am
besten mit logistischen Funktionen hinschreiben, nicht mit Tangentz-HR. Aber man sieht, man braucht
eben diese Hintenschichte zwischen. Das können Sie halt einmal ausprobieren für sich. Will ich
jetzt nicht weiter erläutern. So, jetzt haben wir also hier den Existenzbeweis untersucht.
Das zweite, was ich hier dargestellt hatte, war aber der Ansatz über die Nichtlinierregression.
Und was das eigentlich bedeutet mit Vorwärtsfluss, Rückwärtsfluss, Kreuzprodukt von Vorwärtsfluss
und Rückwärtsfluss, erlaubt mir da die Optimierung zu machen. Und das ist der Punkt, den wir uns jetzt
angucken müssen. Das sind die drei nervigsten Folien, die ich zu bieten habe in der ganzen
Vorlesung, weil man sich da viele Indizes angucken muss. Man kann es schaffen, aber es ist irgendwie
ganz übersichtlich, wenn man es richtig hinschreibt. So, also wir haben ja gesagt, wir wollen uns entlang
von der Architektur hier hochrechnen. Und was ich früher immer mit Matrizen geschrieben habe,
schreibe ich jetzt mal wirklich bedannte ich mit Indizes hin. Und ich will Ihnen dann auch gleich
zeigen, warum sich das einmal lohnt. So, also was habe ich? Ich habe den der originale Input war
x i für i gleich 1 bis l. Das ist mein Input. Und alles, was in solch einen Cluster reinwandert,
nenne ich mal Stereotyp Netto Input. Also die drei Dinge sind einfach genau dasselbe. Netto Input
auf Level 0. Da der Input Cluster, wie die Sehnerven im Auge nichts tun, ist das, was hier rauskommt,
wieder dasselbe. Das ist der Output auf Level 0. Das ist genau dasselbe, wie das, was ich unten
rein getan habe. Und jetzt kommt als nächstes die Matrix-Multiplikation. Matrix-Multiplikation
ist immer eine Summe über die Matrix, multipliziert bei einem Vektor. Und der Laufindex von der Summe
hier ist der zweite Index. Ich bilde hier eine Summe über die, also die Indizes von der Matrix
sind ja immer Zeile Spalte. Und der Laufindex von der Multiplikation hier läuft über den
hinteren Index, also über die Spalte. Vielleicht finden Sie das albern, dass ich das so genau
erkläre, weil ich doch hier vor Mathematik anstehe. Aber wenn wir später das selber noch mal machen
für Tensorrechnungen, dann wissen Sie schon, warum ich da genau drauf achte. So, also hier haben wir
jetzt die Matrix-Multiplikation stehen und mit der Matrix von der Operation, die auf den ersten
Level hier führt. Und dann kriege ich also den Netto-Input raus von dem, was hier in diesen
Cluster reingeht. Also das ist wieder ein Vektor, der geht über J. Und ja, jetzt muss ich halt durch
die Nichtlinarität durchgehen. Das ist ja eine Element-by-Element-Vektor-Operation. Das heißt,
der Index, der hier steht, ist der selbe wie vorher, aber ich bin immer noch auf Level 1. Und dann nehme
ich also den Output von hier, multipliziere den mit einer zweiten Matrix, die also auf den nächsten
Level hochführt. Und die Operation hier geht wieder über den Index J, also über den hinteren Index.
Und der vordere Index hier kommt dann eben als finaler Index von dem Output-Vektor hier oben
raus. Da mag dann noch mal eine Komponentenweise Nichtlinarität kommen, wo das kommt halt keine,
sprich F2W Identität. Kriege ich also einen Output-Vektor raus. Soweit so gut. Das heißt, alles,
was ich bis jetzt hingeschrieben habe, ist der Formelwald noch mal entlang der Architektur
aufgeschrieben. Und jetzt haben wir ja unsere Arrow-Funktion hier. Die geht einmal über den
Datensatz. Und wenn ich eine Summe über einen Datensatz bilde, schreibe ich immer als Index T hin,
weil ich die meiste Zeit immer Aufgaben über einen Zeithorizont hatte. Nicht über
Querschnittsdaten, sondern über temporale Daten. Und da ist sozusagen natürlich, dass man die Daten
mit T indiziert. So, soweit so gut. Also das 1 durch T Summe ET meint, das hier ist der Arrow
vom Datenpunkt T und das ist der mittlere Arrow über alle Datenpunkte und das ist mein Gesamterror.
Also, das nehme ich jetzt mal hier als Target-Funktion. Wir hatten vorher stehen, hatten wir die
quadratische Abweichung zwischen Output und Target. Der Output ist der Output von Level 2 hier. Die
Targetdaten sind halt die Targetdaten, quadratische Abweichung. Und dann nehme ich bitte in die
Presenters
Zugänglich über
Offener Zugang
Dauer
00:53:45 Min
Aufnahmedatum
2020-10-26
Hochgeladen am
2020-10-27 09:46:55
Sprache
de-DE