Genau, also ich hatte vor der Pause erklärt, warum stochastische Optimierung nicht nur eine gute
Idee ist, um lokale Minima zu vermeiden, sondern dass die Stochastizität in sich selber einen
impliziten Penalty Term generiert und der hat die schönste Form, wenn ich dieses
Pattern-by-Pattern-Learning habe und wenn immer ich in die Richtung gehe auf Beschleunigungsverfahren,
dann werde ich hingehen und mir diesen Penalty Term schlechter machen. Also wie zum Beispiel hier
bei dem Vario Etta. Also ich habe das im Laufe des Lebens für alle möglichen Sachen immer wieder
probiert. Den schönsten Penalty Term, den sie haben können, den haben sie bei Pattern-by-Pattern
Learning und alles andere macht ihn schwieriger oder schlechter. Und das Argument hier ist eben
wirklich Optimierung bedeutet, Gewichte zu finden, die in einem Kräftekleichgewicht hängen. Also wo
genauso viele Kräfte nach oben und unten wirken und deswegen bleibt das Gewicht nachher in der
Mitte da kleben und das ist ein lokales Minimum. Aber das heißt nicht, dass die Kräfte null sind im
Minimum, sondern die halten das lediglich in einem Gleichgewicht. Und so ein Gleichgewicht,
hier ist halt ein schlechtes Beispiel für ein Gleichgewicht, sowas ist ein gutes
Beispiel für ein Gleichgewicht. Und das ist insbesondere noch eine Anmerkung wert. Wir werden
viele Aufgaben haben, wo unsere neuronale Netze total überparametrisiert sind. Überparametrisiert
heißt ja, sie haben in der Error-Funktion nicht genügend viel Informationen, um die Optimierung
alleine durchzuführen. Und deswegen ist hier so ein Ergänzungsterm, der sinnvoll einen Beitrag
liefert zum guten Modellbau natürlich gerade wichtig. Und diese überparametrisierten Modelle
dazu untersuchen, das ist sozusagen Kapitel, was da noch kommt. Aber gut, jetzt haben wir also hier
dann den Vergleich bei Pattern Learning, Vario Aether. Und jetzt gibt es ganz viele andere
Methoden, die man machen könnte. Recht bekannt ist noch Airprop und das macht nichts anderes,
wie das sagt, ich will gar nicht wissen, was hier die Länge von dem Gradient an einer bestimmten
Stelle ist. Ich mache damit auch eine, wie bei Vario Aether, eine Lernratensteuerung, die ein
Stück komplizierter aussieht. Das können wir uns ein paar Folien später noch angucken. Und die
benutzen dann hier den kumulierten Gradienten. Und damit ist mein Argument hier automatisch,
das ist nicht gut, weil kumulierter Gradient bedeutet, ich habe überhaupt keinen stochastischen
implizierten Penalty Term. Den habe ich nur, wenn ich stochastische Methoden habe. Wann immer ich
mit kumulierten Gradienten arbeite, tue ich mir das selber nehmen. Und auch wenn ich Leben
bergmark war oder was manchmal vorgeschlagen wird, dann optimieren wir das Verfahren, wenn ich die
nehmen würde. All diese Sachen haben keinen stochastischen Penalty Term und deswegen sind
sie in meinen Augen hierfür ungeeignet. Jetzt kann man noch die Anmerkung machen,
würde ich sagen wir so was wie Newton-Verfahren gut finden. Die Antwort darauf heißt nein. Warum?
Schauen Sie, Newton-Verfahren ist eine Angelegenheit, wo sie mit den zweiten Ableitungen
aufgrund der Krümmung an einer lokalen Stelle sagen wollen, ich weiß noch mehr als das,
was ich nur gerade an der lokalen Stelle sehe. Ich kann sozusagen eine ganz weite Umgebung davon
sehen und deswegen kann ich schneller ins Minimum springen. Das ist wundervoll, wenn Sie so einen
quadratischen Topf haben, wo unten ein Minimum drin ist, dann können Sie dann in einen Schritt
reinspringen. Aber wenn Sie in einer komplexen Umgebung sind, also wenn Sie sich vorstellen,
Sie sitzen in den Alpen, müssen jetzt ein Minimum finden, dann nützt Ihnen die lokale Krümmung an
einer Stelle fast nichts darüber, um herauszufinden, wo Sie denn hin sollen. Sprich,
für komplexe Funktionen ist die Eigenschaft, ich weiß auch noch die Krümmung, ich weiß die
hesse matrix, ich weiß diese ganzen Newton, quasi Newtonverfahren, nützt einem nicht viel. Also in
dem Sinne hier kommen wir dann am Ende des Tages zurück. So, diese stochastische Larnmethode hier,
die hat viele gute Vorteile und wenn denn das Rauschen, wenn der stochastische Teil hier drin
zu groß wäre, dann nehme ich halt nicht GT für jedes einzelne Pattern, sondern so eine Mini-Veg
Size, wie das heißt, ich nehme ein paar Gradienten zusammen, damit es ein bisschen mehr ausgerichtet
wird. Das ist dann sozusagen so eine Homotopie zwischen dem kompletten steepest descent und dem
Einzelpattern. So weit und hier haben wir mal ein Beispiel, das ist Benutzeroberfläche von Senn,
also von der Simulationsentwicklungsumgebung, die da bei Sie mit uns gemacht worden ist. Da haben wir
natürlich im Laufe der Jahrzehnte alles Mögliche probiert. Hier sehen Sie ein Beispiel, das hat 20
Presenters
Zugänglich über
Offener Zugang
Dauer
00:54:42 Min
Aufnahmedatum
2020-10-27
Hochgeladen am
2020-10-27 14:17:03
Sprache
de-DE