Erste Frage gibt es hier Leute im Saal die an den ersten beiden Tagen nicht dabei waren.
Muss ich nämlich etwas anderes einsteigen deswegen.
Die Beschreibung um das es in den vier Tagen hier geht ist aus dem Konzept Artificial
Intelligence heraus neuronale Netze als mathematische Methode zu erklären die dann
angewandt wird auf Data Analytics. Und jetzt kann ich natürlich nicht diesen ganzen diese
ganzen zwei Tage nochmal erzählen aber ich möchte gerne auf einige Punkte eingehen die
wichtig sind für das was wir als nächstes machen werden nämlich dynamische Systeme angucken.
Also die grundlegende Folie die man immer sich wieder zurückrufen kann wenn man über
neuronale Netze redet ist. Wir haben eine Design Frage und die besteht darin zu sagen es könnte
doch eine tolle Idee sein die hintereinander Schaltung von Funktionen anzugucken und nicht
die additive Entwicklung in immer komplexerer Terme wie das bei der Teleentwicklung gemacht
wird. Also hier habe ich wirklich die Idee ich beschreibe eine Funktionen Klasse die
durch hintereinander Schaltung zustande kommt und das noch bei den dynamischen Systemen noch
viel stärker eine Rolle spielen wie bei den Funktionen die wir bis jetzt betrachtet haben.
Und der zweite Punkt an diesem Spiel ist wenn ich diese Art Funktionen habe die kann ich in schöner
Weise als Architektur aufschreiben nämlich immer dann wenn hier ein Vektor vorkommt dann
male ich das als Ellipsoid oder eben auch als Kreis und wenn eine Matrixmultiplikation vorkommt
dann male ich das als Pfeil. Die Nicht-Linerität hier wird der Element für Element auf diesen
Vektor angewandt der hier innen drin rauskommt sprich das ist eigentlich eine Vektorartige
Operation das heißt die liegt in dem Cluster von Neuronen hier drin die liegt in diesem Layer von
Neuronen drin. Ja und dann haben wir wieder eine Matrixmultiplikation und hier auf der
letzten Schicht da kann eine Nicht-Linerität vorkommen oder eben auch nicht. Der Universal
Approximation Beweis sagt vorkommen muss hier nicht wenn ich mich nur für eine Input Output
Abbildung interessiere. By the way es gibt in der Literatur hier ein komplettes Doseinander an
Beschreibungen manche Leute nennen das hier ein 3-Layer-Netzwerk andere nennen das ein 2-Layer-Netzwerk
3-Layer natürlich wenn ich hier die Kreise zähle 2-Layer wenn ich die Matrixmultiplikation zähle und
wenn ich sorgfältig bin und darauf achte dann würde ich sagen das ist ein 3-Layer-Netzwerk
obwohl die untere Schicht nichts tut außer die Input Informationen aufnehmen und wenn ich dann
auf die Matrizen gucke würde ich sagen ich habe 2-Layer aber ich habe ein 3-schichtiges
normales Netz halt aber im Endeffekt müssen sich einfach dran gewöhnen wir reden über das was
wir beschreiben wollen in welchen Worten auch immer das durcheinander kriegen sie nicht mehr
raus so wir haben also jetzt hier diese Art Funktionen Klasse die wollen wir lernen sprich
am Anfang wissen wir nichts über die Parameter das steht also zufällig was drin und wenn ich
dann einen Datenpunkt hier unten einschleuse kommt hier oben irgendein Unsinn raus den vergleiche ich
mit dem Targetwert und dieser Fehlerabstand hier der gemessen wird nur außerhalb vom Netzwerk
noch zurückgepumpt gegen die Berechnungslinie hier und das Kreuzprodukt von beiden Linien erlaubt
mir dann eben die erste Ableitung der Funktionen hier nach den Parametern an der entsprechenden
Stelle in der Architektur auszurechnen der wichtige Punkt in der Stelle hier ist nur lokal diese beiden
Informationsflüsse angucken zu wissen was ich hier zu tun habe wenn ich da unten was tun will
eben nur hier unten ja und dann hatten wir den Punkt zentral wichtig bei neuronalen Netzen ist
diese notorisch überparameterisiert überparameterisiert bedeutet ich kriege
auf der Trainingsmenge super schöne Lösungen raus also die 180 Trainingspunkte hier rote Linie ist
Target die blauen Linien sind 25 verschiedene Lösungen die von diesen 25 Subnetzwerken hier
kommen und diese 25 Lösungen sehen wunderschön aus in der Vergangenheit wo ich gelernt habe aber
sie unterscheiden sich extrem in der Zukunft dieses Phänomen kommt dadurch zustande dass ich eben zu
viele Parameter im Modell habe die ich nicht alle eindeutig identifizieren kann und deswegen sehen
sie hier sozusagen durch Eschow der der Start Initialisierung also die Zufälligkeit die in der
random Initialisierung von diesen Subnetzwerken hier alle stattgefunden hat ja dann ist eben die
Frage was tue ich dagegen wenn wenn ich diese Überparameterisierung habe die eine Möglichkeit
die wir diskutiert hatten war zu sagen ich versuche eben ein möglichst most parsimonious also möglichst
Presenters
Zugänglich über
Offener Zugang
Dauer
01:27:36 Min
Aufnahmedatum
2019-04-17
Hochgeladen am
2019-04-17 22:06:50
Sprache
de-DE