6 - Mathematische Grundlagen zu Künstliche Intelligenz, Neuronale Netze und Data Analytics I [ID:21969]

50 von 487 angezeigt

Genau, also ich hatte vor der Pause erklärt, warum stochastische Optimierung nicht nur eine gute

Idee ist, um lokale Minima zu vermeiden, sondern dass die Stochastizität in sich selber einen

impliziten Penalty Term generiert und der hat die schönste Form, wenn ich dieses

Pattern-by-Pattern-Learning habe und wenn immer ich in die Richtung gehe auf Beschleunigungsverfahren,

dann werde ich hingehen und mir diesen Penalty Term schlechter machen. Also wie zum Beispiel hier

bei dem Vario Etta. Also ich habe das im Laufe des Lebens für alle möglichen Sachen immer wieder

probiert. Den schönsten Penalty Term, den sie haben können, den haben sie bei Pattern-by-Pattern

Learning und alles andere macht ihn schwieriger oder schlechter. Und das Argument hier ist eben

wirklich Optimierung bedeutet, Gewichte zu finden, die in einem Kräftekleichgewicht hängen. Also wo

genauso viele Kräfte nach oben und unten wirken und deswegen bleibt das Gewicht nachher in der

Mitte da kleben und das ist ein lokales Minimum. Aber das heißt nicht, dass die Kräfte null sind im

Minimum, sondern die halten das lediglich in einem Gleichgewicht. Und so ein Gleichgewicht,

hier ist halt ein schlechtes Beispiel für ein Gleichgewicht, sowas ist ein gutes

Beispiel für ein Gleichgewicht. Und das ist insbesondere noch eine Anmerkung wert. Wir werden

viele Aufgaben haben, wo unsere neuronale Netze total überparametrisiert sind. Überparametrisiert

heißt ja, sie haben in der Error-Funktion nicht genügend viel Informationen, um die Optimierung

alleine durchzuführen. Und deswegen ist hier so ein Ergänzungsterm, der sinnvoll einen Beitrag

liefert zum guten Modellbau natürlich gerade wichtig. Und diese überparametrisierten Modelle

dazu untersuchen, das ist sozusagen Kapitel, was da noch kommt. Aber gut, jetzt haben wir also hier

dann den Vergleich bei Pattern Learning, Vario Aether. Und jetzt gibt es ganz viele andere

Methoden, die man machen könnte. Recht bekannt ist noch Airprop und das macht nichts anderes,

wie das sagt, ich will gar nicht wissen, was hier die Länge von dem Gradient an einer bestimmten

Stelle ist. Ich mache damit auch eine, wie bei Vario Aether, eine Lernratensteuerung, die ein

Stück komplizierter aussieht. Das können wir uns ein paar Folien später noch angucken. Und die

benutzen dann hier den kumulierten Gradienten. Und damit ist mein Argument hier automatisch,

das ist nicht gut, weil kumulierter Gradient bedeutet, ich habe überhaupt keinen stochastischen

implizierten Penalty Term. Den habe ich nur, wenn ich stochastische Methoden habe. Wann immer ich

mit kumulierten Gradienten arbeite, tue ich mir das selber nehmen. Und auch wenn ich Leben

bergmark war oder was manchmal vorgeschlagen wird, dann optimieren wir das Verfahren, wenn ich die

nehmen würde. All diese Sachen haben keinen stochastischen Penalty Term und deswegen sind

sie in meinen Augen hierfür ungeeignet. Jetzt kann man noch die Anmerkung machen,

würde ich sagen wir so was wie Newton-Verfahren gut finden. Die Antwort darauf heißt nein. Warum?

Schauen Sie, Newton-Verfahren ist eine Angelegenheit, wo sie mit den zweiten Ableitungen

aufgrund der Krümmung an einer lokalen Stelle sagen wollen, ich weiß noch mehr als das,

was ich nur gerade an der lokalen Stelle sehe. Ich kann sozusagen eine ganz weite Umgebung davon

sehen und deswegen kann ich schneller ins Minimum springen. Das ist wundervoll, wenn Sie so einen

quadratischen Topf haben, wo unten ein Minimum drin ist, dann können Sie dann in einen Schritt

reinspringen. Aber wenn Sie in einer komplexen Umgebung sind, also wenn Sie sich vorstellen,

Sie sitzen in den Alpen, müssen jetzt ein Minimum finden, dann nützt Ihnen die lokale Krümmung an

einer Stelle fast nichts darüber, um herauszufinden, wo Sie denn hin sollen. Sprich,

für komplexe Funktionen ist die Eigenschaft, ich weiß auch noch die Krümmung, ich weiß die

hesse matrix, ich weiß diese ganzen Newton, quasi Newtonverfahren, nützt einem nicht viel. Also in

dem Sinne hier kommen wir dann am Ende des Tages zurück. So, diese stochastische Larnmethode hier,

die hat viele gute Vorteile und wenn denn das Rauschen, wenn der stochastische Teil hier drin

zu groß wäre, dann nehme ich halt nicht GT für jedes einzelne Pattern, sondern so eine Mini-Veg

Size, wie das heißt, ich nehme ein paar Gradienten zusammen, damit es ein bisschen mehr ausgerichtet

wird. Das ist dann sozusagen so eine Homotopie zwischen dem kompletten steepest descent und dem

Einzelpattern. So weit und hier haben wir mal ein Beispiel, das ist Benutzeroberfläche von Senn,

also von der Simulationsentwicklungsumgebung, die da bei Sie mit uns gemacht worden ist. Da haben wir

natürlich im Laufe der Jahrzehnte alles Mögliche probiert. Hier sehen Sie ein Beispiel, das hat 20

Teil einer Videoserie :

Mathematische Grundlagen zu Künstliche Intelligenz, Neuronale Netze und Data Analytics I

Presenters

Dr. Hans Georg Zimmermann

Zugänglich über

Offener Zugang

Dauer

00:54:42 Min

Aufnahmedatum

2020-10-27

Hochgeladen am

2020-10-27 14:17:03

Sprache

de-DE

Einbetten

Wordpress FAU Plugin

 https://www.fau.tv/clip/id/21969

iFrame

<iframe src="https://api.video.uni-erlangen.de/services/oembed/?url=https://www.fau.tv/clip/id/21969&format=iframe&maxwidth=1280&maxheight=720" width="1280" height="720"seamless allowfullscreen style="border: 0; padding: 0; margin: 0;overflow: hidden;"></iframe>

Herunterladen

Video

Per RSS abonnieren