8 - Mathematische Grundlagen zu Data Analytics, Neuronale Netze und Künstliche Intelligenz [ID:10619]
50 von 734 angezeigt

Also auf ein neues. Ich würde gerne mit Ihnen die Feedforward-Netze wiederholen und zwar gehen wir

noch mal schnell da drüber, aber mit einer anderen Schwerpunktsbildung, wie wir das hatten. Also wir

haben hier angefangen mit dem mathematischen Teil und im Nachhinein sollten Sie sehen,

dass auf der Folie ganz viel Outline steht von dem, was wir dann später im Detail angeschaut haben.

Also nicht nur, dass wir uns hier über den Existenzbeweis unterhalten haben,

nee, warum so Konkatenation von Funktionen eine schöne Struktur ist, haben wir jetzt im Laufe der

Zeit immer weiter ausgearbeitet und bei der Regressionsgeschichte hier ist eben ganz,

ganz wichtig das Korrespondenzprinzip zu haben mit den lokalen Algorithmen, damit man auf beliebig

großes System skalieren kann. Ja, dann haben wir eben gesagt, es gibt einen schönen Algorithmus,

der Backpropagation heißt und im Grunde so aussieht, der für Matrizen und Vektoren so halbwegs

anschaulich aussieht, aber der später dann sogar für allgemeine Tensoren so funktionieren würde.

Wenn man denn die Indizes in den entsprechenden Objekten entsprechend liest als Multiindizes.

Und dann haben wir festgestellt, die Abweichung vom normalen Backpropagation mit shared weights

haben wir bis jetzt noch gar nicht gebraucht, aber die mit den transponierten Matrizen,

die haben wir schon gesehen, nämlich bei dem Autoencoder hier, das sozusagen,

dass die eine Matrix ist und das hier denn die entgegengesetzte, also Kompression,

die Kompression, das haben wir schon gebraucht als Variante von den Backpropagation.

Nun, Backpropagation selber ist ein Verfahren, Gradienten auszurechnen und als nächstes müssen

wir dann mal irgendwann auf ein Wehtupdate kommen und da ist jetzt sozusagen im Nachhinein,

wenn man die vielen Aspekte gegeneinander vergleicht, ist die Message, wenn man wenig

Daten hat, so dass man in dem Problem der Überparameterisierung liegt, ist diese zusätzliche

Teil in der Zielfunktion hier wichtig und damit habe ich eben diese implizite Penaltyfunktion

hier dabei, die bei dem Pattern-by-Pattern-Learning ideal aussieht und bei Verfahren, die versuchen

schneller zu lernen, eben nicht mehr so ideal aussieht. Also so gesehen würde ich für Aufgaben,

die wenig Trainingsbeispiele haben, würde ich das Pattern-by-Pattern vorziehen.

Bei Aufgaben, wo sie sehr viele Trainingsdaten haben, da ist es mehr wichtig, dass man mehrere

Trainingspattern parallel rechnen kann, da brauchen sie also irgendeine Batch-Size, um

das noch durchrechnen zu können. So und dann haben wir gesehen, das Hauptproblem in dieser

ganzen Geschichte hier ist, wie geht man mit Überparameterisierung um, weil normalen Netze

sind notorisch überparameterisiert. Ich will ja viel Struktur darstellen, das führt aber

automatisch dazu, dass ich Matrizen voll Parameter dabei habe und da muss ich irgendwas mit der

Überparameterisierung tun. Das Experiment hier zeigt es eben schön, dass ich die Trainingsmenge

gut gelernt habe, es ist kein Kriterium dafür, dass ich auch die Generalisierung gut kann.

Und um das wegzukriegen, gibt es zwei, wenn Sie so wollen, Fundamentalsäulen. Das eine

ist OKKAM, die ich nicht empfehlen würde und das andere ist eben diese bäsianische

Sichtweise, die sagt, eigentlich ist eine Lösung des Problems eine Verteilung, ein Ensemble

und wenn ein Kunde das nicht hören will, nimmst du halt den Mittelwert vom Ensemble.

Also so wie das hier dargestellt ist. Man könnte auch sagen, diese Architektur hier

ist die Verheiratung von OKKAM und BASE, weil auch hier habe ich ja am Ende nur ein einziges

Modell, also wie OKKAM das wollte, nur dass das Modell noch eine interne Strukturierung

hat, die dem BASE folgt. Das ist eben eine Angelegenheit, die man ja nach außen, wenn

man nur Input Output anguckt, gar nicht wissen muss. Also so gesehen haben wir das hier zusammengepackt.

Ja, dann haben wir schon mal gesagt, also Parallelverarbeitung von Algorithmen ist bei

Neuro nicht unkritisch, weil die eine Seite, also diese Darstellung hier erlaubt Parallelität

übers Ensemble, aber nicht über die Daten, weil hier wollte ich ja gerade Pattern-by-pattern-learning

machen. Die Seite, wenn ich ganz viele Daten habe, die erlaubt Parallelverarbeitung über

die Daten, den Datendurchsatz, aber da ist Ensemble nicht so wichtig, sprich da kann

ich auch mit einem Netzwerk rechnen. Und dann haben wir gesagt, ok, jetzt machen wir mal

ein Projekt für nonlinear regression. Das ist ja ein absolut typisches Beispiel. Erster

Punkt, ich muss mit den Daten umgehen, die vernünftig vorverarbeitung, sodass Neuro

Zugänglich über

Offener Zugang

Dauer

01:15:50 Min

Aufnahmedatum

2019-04-16

Hochgeladen am

2019-04-18 11:23:26

Sprache

de-DE

Einbetten
Wordpress FAU Plugin
iFrame
Teilen