14 - Mathematische Grundlagen zu Künstliche Intelligenz, Neuronale Netze und Data Analytics II [ID:30662]

50 von 661 angezeigt

Wir haben uns also überlegt, dass man für ein gutes Lernen vom Halbzehnten 4 machen kann.

Was dann am Ende wirklich gut ist, das entscheidet sich insbesondere dann auch,

wenn man den Vergleich mit der Selbsteinschätzung der Unsicherheit anschaut.

Aber bevor man das geht, kann man eben noch weiter über die Frage nachdenken,

könnte ich es noch besser machen?

Na ja, und da war eben ein Ansatz parallel zu dem,

wie das da bei Feedforward-Netzen dargestellt ist.

Was bringt es, wenn ich von dem normalen HCN in ein Deep-HCN übergehe?

Bleibt erst mal die Frage, was ist das?

Und es war gar nicht so klar, das rauszukriegen,

aber am Ende ist es dann eben doch eine Analogie zu dem Feedforward-Netzwerk hier

und sieht dann eben so aus.

Das heißt, ich habe hier mehrere Level an HCNs, die übereinander liegen

und die dann eben sich gegenseitig beeinflussen können.

Da hier auch eine Information rückwärts von oben nach unten fließt,

hat man eben analog wie in dem Feedforward-Gedankengang hier auch eine Schiene,

wie sie hier in der Verbindung der Hidden-Naronen vorkommt.

Für die Output-Naronen, hier bräuchte es diese rückwärts Geschichte ja gar nicht.

Das ist ja immer nur eine Offset-Überlegung von unten nach oben,

aber in den anderen Naronen hat man die Rückwärtsüberlegung

und da hier nichts getrennt ist, macht man es dann halt durchgehend.

Und dann ist eben die Frage, wie muss ich da mit Long-Memory umgehen,

weil der Witz bei diesen Deep-Netzwerken ist ja eben,

da muss nicht jede Schicht alles lernen.

Man kann ja die zusätzliche Arbeit auf die oberen Schichten abwälzen

und daher sind dann eben die einzelnen Deep-Levels keine großen Netzwerke,

sondern eher kleine und daher habe ich die Frage wieder,

muss ich LSTM machen, um hier das überall einzubetten?

Und das könnte ich auf jeder Stufe hier machen, dann wird es halt so aussehen,

dann würde hier sozusagen als Unterprogramm eine Architektur ablaufen,

die auf jeder Stufe für sich so eine Diagonalmatrix bestimmen muss.

Dann zeigt sich aber, das lohnt sich nur in der ersten Stufe,

die anderen will er gar nicht.

Na ja gut, und dann endet es dann halt so.

Ja, und die Modellierung auf Manik-Faltigkeiten greift ein anderes Problem auf,

nämlich das Problem, was muss ich denn machen, wenn ich riesengroße Vektoren

vorhersagen soll, also wie zum Beispiel Lastkurven, die aus 96 Werten bestehen.

Da könnte ich hingehen und heutzutage mit einem hartzigen Ende Schritt für Schritt

versuchen, über 96 Werte in die Zukunft zu rechnen,

oder aber ich könnte auch den kompletten nächsten Tag als komplette Lastkurve rechnen.

Und dann ist erstmal die gute Nachricht bei diesen Lastkurven-Geschichten,

die kann ich, ich erkläre es am besten in dem Beispiel hier,

die kann ich oft oder eigentlich in alle Beispiele, die mir einfallen,

die kann ich oft von 96 Werten auf was sehr Kleines zusammendrücken,

sodass die Prognose, die dann gemacht werden muss, nicht so hochdimensional ist

und trotzdem gut passt.

Na ja, bei der Aufgabe hier, da war das dann gekoppelt mit dem E10-End,

weil damals hatten wir ja gar nichts anderes.

Dann hat man also sozusagen die Dimensionsreduktion gekoppelt hier

mit der temporalen Entwicklung.

Teil einer Videoserie :

Mathematische Grundlagen zu Künstliche Intelligenz, Neuronale Netze und Data Analytics II

Presenters

Dr. Hans Georg Zimmermann

Zugänglich über

Offener Zugang

Dauer

01:05:10 Min

Aufnahmedatum

2021-04-09

Hochgeladen am

2021-04-09 13:47:09

Sprache

de-DE

Einbetten

Wordpress FAU Plugin

 https://www.fau.tv/clip/id/30662

iFrame

<iframe src="https://api.video.uni-erlangen.de/services/oembed/?url=https://www.fau.tv/clip/id/30662&format=iframe&maxwidth=1280&maxheight=720" width="1280" height="720"seamless allowfullscreen style="border: 0; padding: 0; margin: 0;overflow: hidden;"></iframe>

Herunterladen

Video

Per RSS abonnieren