4 - Mathematische Grundlagen zu Künstliche Intelligenz, Neuronale Netze und Data Analytics I [ID:21921]
50 von 469 angezeigt

Und das hier ist diese Aufgabe von Minsky und Papert in dem Buch 1969, wo es gezeigt wurde,

dass man hinten Neuronen braucht, selbst wenn man relativ triviale Input-Output-Zusammenhänge

beschreibt. Der triviale Input-Output-Zusammenhang da oben ist das logische XOR. Und dann haben

Sie das 00 geht auf 0, 01 geht auf 1, 10 geht auf 1 und 11 geht wieder auf 0. Das heißt,

Sie haben nur vier Punkte, wo wirklich was passiert. Jetzt müssen Sie mit Schnittebenen

beschreiben, wie man dann diesen Zusammenhang zwischen den zwei Inputs und dem einen Output

ausdrückt. Die kommen noch in das Netz raus, das sieht so aus, wie es da steht. Das kann man am

besten mit logistischen Funktionen hinschreiben, nicht mit Tangentz-HR. Aber man sieht, man braucht

eben diese Hintenschichte zwischen. Das können Sie halt einmal ausprobieren für sich. Will ich

jetzt nicht weiter erläutern. So, jetzt haben wir also hier den Existenzbeweis untersucht.

Das zweite, was ich hier dargestellt hatte, war aber der Ansatz über die Nichtlinierregression.

Und was das eigentlich bedeutet mit Vorwärtsfluss, Rückwärtsfluss, Kreuzprodukt von Vorwärtsfluss

und Rückwärtsfluss, erlaubt mir da die Optimierung zu machen. Und das ist der Punkt, den wir uns jetzt

angucken müssen. Das sind die drei nervigsten Folien, die ich zu bieten habe in der ganzen

Vorlesung, weil man sich da viele Indizes angucken muss. Man kann es schaffen, aber es ist irgendwie

ganz übersichtlich, wenn man es richtig hinschreibt. So, also wir haben ja gesagt, wir wollen uns entlang

von der Architektur hier hochrechnen. Und was ich früher immer mit Matrizen geschrieben habe,

schreibe ich jetzt mal wirklich bedannte ich mit Indizes hin. Und ich will Ihnen dann auch gleich

zeigen, warum sich das einmal lohnt. So, also was habe ich? Ich habe den der originale Input war

x i für i gleich 1 bis l. Das ist mein Input. Und alles, was in solch einen Cluster reinwandert,

nenne ich mal Stereotyp Netto Input. Also die drei Dinge sind einfach genau dasselbe. Netto Input

auf Level 0. Da der Input Cluster, wie die Sehnerven im Auge nichts tun, ist das, was hier rauskommt,

wieder dasselbe. Das ist der Output auf Level 0. Das ist genau dasselbe, wie das, was ich unten

rein getan habe. Und jetzt kommt als nächstes die Matrix-Multiplikation. Matrix-Multiplikation

ist immer eine Summe über die Matrix, multipliziert bei einem Vektor. Und der Laufindex von der Summe

hier ist der zweite Index. Ich bilde hier eine Summe über die, also die Indizes von der Matrix

sind ja immer Zeile Spalte. Und der Laufindex von der Multiplikation hier läuft über den

hinteren Index, also über die Spalte. Vielleicht finden Sie das albern, dass ich das so genau

erkläre, weil ich doch hier vor Mathematik anstehe. Aber wenn wir später das selber noch mal machen

für Tensorrechnungen, dann wissen Sie schon, warum ich da genau drauf achte. So, also hier haben wir

jetzt die Matrix-Multiplikation stehen und mit der Matrix von der Operation, die auf den ersten

Level hier führt. Und dann kriege ich also den Netto-Input raus von dem, was hier in diesen

Cluster reingeht. Also das ist wieder ein Vektor, der geht über J. Und ja, jetzt muss ich halt durch

die Nichtlinarität durchgehen. Das ist ja eine Element-by-Element-Vektor-Operation. Das heißt,

der Index, der hier steht, ist der selbe wie vorher, aber ich bin immer noch auf Level 1. Und dann nehme

ich also den Output von hier, multipliziere den mit einer zweiten Matrix, die also auf den nächsten

Level hochführt. Und die Operation hier geht wieder über den Index J, also über den hinteren Index.

Und der vordere Index hier kommt dann eben als finaler Index von dem Output-Vektor hier oben

raus. Da mag dann noch mal eine Komponentenweise Nichtlinarität kommen, wo das kommt halt keine,

sprich F2W Identität. Kriege ich also einen Output-Vektor raus. Soweit so gut. Das heißt, alles,

was ich bis jetzt hingeschrieben habe, ist der Formelwald noch mal entlang der Architektur

aufgeschrieben. Und jetzt haben wir ja unsere Arrow-Funktion hier. Die geht einmal über den

Datensatz. Und wenn ich eine Summe über einen Datensatz bilde, schreibe ich immer als Index T hin,

weil ich die meiste Zeit immer Aufgaben über einen Zeithorizont hatte. Nicht über

Querschnittsdaten, sondern über temporale Daten. Und da ist sozusagen natürlich, dass man die Daten

mit T indiziert. So, soweit so gut. Also das 1 durch T Summe ET meint, das hier ist der Arrow

vom Datenpunkt T und das ist der mittlere Arrow über alle Datenpunkte und das ist mein Gesamterror.

Also, das nehme ich jetzt mal hier als Target-Funktion. Wir hatten vorher stehen, hatten wir die

quadratische Abweichung zwischen Output und Target. Der Output ist der Output von Level 2 hier. Die

Targetdaten sind halt die Targetdaten, quadratische Abweichung. Und dann nehme ich bitte in die

Zugänglich über

Offener Zugang

Dauer

00:53:45 Min

Aufnahmedatum

2020-10-26

Hochgeladen am

2020-10-27 09:46:55

Sprache

de-DE

Einbetten
Wordpress FAU Plugin
iFrame
Teilen