9 - Mathematische Grundlagen zu Data Analytics, Neuronale Netze und Künstliche Intelligenz [ID:10620]
50 von 816 angezeigt

Erste Frage gibt es hier Leute im Saal die an den ersten beiden Tagen nicht dabei waren.

Muss ich nämlich etwas anderes einsteigen deswegen.

Die Beschreibung um das es in den vier Tagen hier geht ist aus dem Konzept Artificial

Intelligence heraus neuronale Netze als mathematische Methode zu erklären die dann

angewandt wird auf Data Analytics. Und jetzt kann ich natürlich nicht diesen ganzen diese

ganzen zwei Tage nochmal erzählen aber ich möchte gerne auf einige Punkte eingehen die

wichtig sind für das was wir als nächstes machen werden nämlich dynamische Systeme angucken.

Also die grundlegende Folie die man immer sich wieder zurückrufen kann wenn man über

neuronale Netze redet ist. Wir haben eine Design Frage und die besteht darin zu sagen es könnte

doch eine tolle Idee sein die hintereinander Schaltung von Funktionen anzugucken und nicht

die additive Entwicklung in immer komplexerer Terme wie das bei der Teleentwicklung gemacht

wird. Also hier habe ich wirklich die Idee ich beschreibe eine Funktionen Klasse die

durch hintereinander Schaltung zustande kommt und das noch bei den dynamischen Systemen noch

viel stärker eine Rolle spielen wie bei den Funktionen die wir bis jetzt betrachtet haben.

Und der zweite Punkt an diesem Spiel ist wenn ich diese Art Funktionen habe die kann ich in schöner

Weise als Architektur aufschreiben nämlich immer dann wenn hier ein Vektor vorkommt dann

male ich das als Ellipsoid oder eben auch als Kreis und wenn eine Matrixmultiplikation vorkommt

dann male ich das als Pfeil. Die Nicht-Linerität hier wird der Element für Element auf diesen

Vektor angewandt der hier innen drin rauskommt sprich das ist eigentlich eine Vektorartige

Operation das heißt die liegt in dem Cluster von Neuronen hier drin die liegt in diesem Layer von

Neuronen drin. Ja und dann haben wir wieder eine Matrixmultiplikation und hier auf der

letzten Schicht da kann eine Nicht-Linerität vorkommen oder eben auch nicht. Der Universal

Approximation Beweis sagt vorkommen muss hier nicht wenn ich mich nur für eine Input Output

Abbildung interessiere. By the way es gibt in der Literatur hier ein komplettes Doseinander an

Beschreibungen manche Leute nennen das hier ein 3-Layer-Netzwerk andere nennen das ein 2-Layer-Netzwerk

3-Layer natürlich wenn ich hier die Kreise zähle 2-Layer wenn ich die Matrixmultiplikation zähle und

wenn ich sorgfältig bin und darauf achte dann würde ich sagen das ist ein 3-Layer-Netzwerk

obwohl die untere Schicht nichts tut außer die Input Informationen aufnehmen und wenn ich dann

auf die Matrizen gucke würde ich sagen ich habe 2-Layer aber ich habe ein 3-schichtiges

normales Netz halt aber im Endeffekt müssen sich einfach dran gewöhnen wir reden über das was

wir beschreiben wollen in welchen Worten auch immer das durcheinander kriegen sie nicht mehr

raus so wir haben also jetzt hier diese Art Funktionen Klasse die wollen wir lernen sprich

am Anfang wissen wir nichts über die Parameter das steht also zufällig was drin und wenn ich

dann einen Datenpunkt hier unten einschleuse kommt hier oben irgendein Unsinn raus den vergleiche ich

mit dem Targetwert und dieser Fehlerabstand hier der gemessen wird nur außerhalb vom Netzwerk

noch zurückgepumpt gegen die Berechnungslinie hier und das Kreuzprodukt von beiden Linien erlaubt

mir dann eben die erste Ableitung der Funktionen hier nach den Parametern an der entsprechenden

Stelle in der Architektur auszurechnen der wichtige Punkt in der Stelle hier ist nur lokal diese beiden

Informationsflüsse angucken zu wissen was ich hier zu tun habe wenn ich da unten was tun will

eben nur hier unten ja und dann hatten wir den Punkt zentral wichtig bei neuronalen Netzen ist

diese notorisch überparameterisiert überparameterisiert bedeutet ich kriege

auf der Trainingsmenge super schöne Lösungen raus also die 180 Trainingspunkte hier rote Linie ist

Target die blauen Linien sind 25 verschiedene Lösungen die von diesen 25 Subnetzwerken hier

kommen und diese 25 Lösungen sehen wunderschön aus in der Vergangenheit wo ich gelernt habe aber

sie unterscheiden sich extrem in der Zukunft dieses Phänomen kommt dadurch zustande dass ich eben zu

viele Parameter im Modell habe die ich nicht alle eindeutig identifizieren kann und deswegen sehen

sie hier sozusagen durch Eschow der der Start Initialisierung also die Zufälligkeit die in der

random Initialisierung von diesen Subnetzwerken hier alle stattgefunden hat ja dann ist eben die

Frage was tue ich dagegen wenn wenn ich diese Überparameterisierung habe die eine Möglichkeit

die wir diskutiert hatten war zu sagen ich versuche eben ein möglichst most parsimonious also möglichst

Zugänglich über

Offener Zugang

Dauer

01:27:36 Min

Aufnahmedatum

2019-04-17

Hochgeladen am

2019-04-17 22:06:50

Sprache

de-DE

Tags

approximation input networks learning data function network feedforward complex tensors
Einbetten
Wordpress FAU Plugin
iFrame
Teilen