Wir haben uns also überlegt, dass man für ein gutes Lernen vom Halbzehnten 4 machen kann.
Was dann am Ende wirklich gut ist, das entscheidet sich insbesondere dann auch,
wenn man den Vergleich mit der Selbsteinschätzung der Unsicherheit anschaut.
Aber bevor man das geht, kann man eben noch weiter über die Frage nachdenken,
könnte ich es noch besser machen?
Na ja, und da war eben ein Ansatz parallel zu dem,
wie das da bei Feedforward-Netzen dargestellt ist.
Was bringt es, wenn ich von dem normalen HCN in ein Deep-HCN übergehe?
Bleibt erst mal die Frage, was ist das?
Und es war gar nicht so klar, das rauszukriegen,
aber am Ende ist es dann eben doch eine Analogie zu dem Feedforward-Netzwerk hier
und sieht dann eben so aus.
Das heißt, ich habe hier mehrere Level an HCNs, die übereinander liegen
und die dann eben sich gegenseitig beeinflussen können.
Da hier auch eine Information rückwärts von oben nach unten fließt,
hat man eben analog wie in dem Feedforward-Gedankengang hier auch eine Schiene,
wie sie hier in der Verbindung der Hidden-Naronen vorkommt.
Für die Output-Naronen, hier bräuchte es diese rückwärts Geschichte ja gar nicht.
Das ist ja immer nur eine Offset-Überlegung von unten nach oben,
aber in den anderen Naronen hat man die Rückwärtsüberlegung
und da hier nichts getrennt ist, macht man es dann halt durchgehend.
Und dann ist eben die Frage, wie muss ich da mit Long-Memory umgehen,
weil der Witz bei diesen Deep-Netzwerken ist ja eben,
da muss nicht jede Schicht alles lernen.
Man kann ja die zusätzliche Arbeit auf die oberen Schichten abwälzen
und daher sind dann eben die einzelnen Deep-Levels keine großen Netzwerke,
sondern eher kleine und daher habe ich die Frage wieder,
muss ich LSTM machen, um hier das überall einzubetten?
Und das könnte ich auf jeder Stufe hier machen, dann wird es halt so aussehen,
dann würde hier sozusagen als Unterprogramm eine Architektur ablaufen,
die auf jeder Stufe für sich so eine Diagonalmatrix bestimmen muss.
Dann zeigt sich aber, das lohnt sich nur in der ersten Stufe,
die anderen will er gar nicht.
Na ja gut, und dann endet es dann halt so.
Ja, und die Modellierung auf Manik-Faltigkeiten greift ein anderes Problem auf,
nämlich das Problem, was muss ich denn machen, wenn ich riesengroße Vektoren
vorhersagen soll, also wie zum Beispiel Lastkurven, die aus 96 Werten bestehen.
Da könnte ich hingehen und heutzutage mit einem hartzigen Ende Schritt für Schritt
versuchen, über 96 Werte in die Zukunft zu rechnen,
oder aber ich könnte auch den kompletten nächsten Tag als komplette Lastkurve rechnen.
Und dann ist erstmal die gute Nachricht bei diesen Lastkurven-Geschichten,
die kann ich, ich erkläre es am besten in dem Beispiel hier,
die kann ich oft oder eigentlich in alle Beispiele, die mir einfallen,
die kann ich oft von 96 Werten auf was sehr Kleines zusammendrücken,
sodass die Prognose, die dann gemacht werden muss, nicht so hochdimensional ist
und trotzdem gut passt.
Na ja, bei der Aufgabe hier, da war das dann gekoppelt mit dem E10-End,
weil damals hatten wir ja gar nichts anderes.
Dann hat man also sozusagen die Dimensionsreduktion gekoppelt hier
mit der temporalen Entwicklung.
Presenters
Zugänglich über
Offener Zugang
Dauer
01:05:10 Min
Aufnahmedatum
2021-04-09
Hochgeladen am
2021-04-09 13:47:09
Sprache
de-DE