Also auf ein neues. Ich würde gerne mit Ihnen die Feedforward-Netze wiederholen und zwar gehen wir
noch mal schnell da drüber, aber mit einer anderen Schwerpunktsbildung, wie wir das hatten. Also wir
haben hier angefangen mit dem mathematischen Teil und im Nachhinein sollten Sie sehen,
dass auf der Folie ganz viel Outline steht von dem, was wir dann später im Detail angeschaut haben.
Also nicht nur, dass wir uns hier über den Existenzbeweis unterhalten haben,
nee, warum so Konkatenation von Funktionen eine schöne Struktur ist, haben wir jetzt im Laufe der
Zeit immer weiter ausgearbeitet und bei der Regressionsgeschichte hier ist eben ganz,
ganz wichtig das Korrespondenzprinzip zu haben mit den lokalen Algorithmen, damit man auf beliebig
großes System skalieren kann. Ja, dann haben wir eben gesagt, es gibt einen schönen Algorithmus,
der Backpropagation heißt und im Grunde so aussieht, der für Matrizen und Vektoren so halbwegs
anschaulich aussieht, aber der später dann sogar für allgemeine Tensoren so funktionieren würde.
Wenn man denn die Indizes in den entsprechenden Objekten entsprechend liest als Multiindizes.
Und dann haben wir festgestellt, die Abweichung vom normalen Backpropagation mit shared weights
haben wir bis jetzt noch gar nicht gebraucht, aber die mit den transponierten Matrizen,
die haben wir schon gesehen, nämlich bei dem Autoencoder hier, das sozusagen,
dass die eine Matrix ist und das hier denn die entgegengesetzte, also Kompression,
die Kompression, das haben wir schon gebraucht als Variante von den Backpropagation.
Nun, Backpropagation selber ist ein Verfahren, Gradienten auszurechnen und als nächstes müssen
wir dann mal irgendwann auf ein Wehtupdate kommen und da ist jetzt sozusagen im Nachhinein,
wenn man die vielen Aspekte gegeneinander vergleicht, ist die Message, wenn man wenig
Daten hat, so dass man in dem Problem der Überparameterisierung liegt, ist diese zusätzliche
Teil in der Zielfunktion hier wichtig und damit habe ich eben diese implizite Penaltyfunktion
hier dabei, die bei dem Pattern-by-Pattern-Learning ideal aussieht und bei Verfahren, die versuchen
schneller zu lernen, eben nicht mehr so ideal aussieht. Also so gesehen würde ich für Aufgaben,
die wenig Trainingsbeispiele haben, würde ich das Pattern-by-Pattern vorziehen.
Bei Aufgaben, wo sie sehr viele Trainingsdaten haben, da ist es mehr wichtig, dass man mehrere
Trainingspattern parallel rechnen kann, da brauchen sie also irgendeine Batch-Size, um
das noch durchrechnen zu können. So und dann haben wir gesehen, das Hauptproblem in dieser
ganzen Geschichte hier ist, wie geht man mit Überparameterisierung um, weil normalen Netze
sind notorisch überparameterisiert. Ich will ja viel Struktur darstellen, das führt aber
automatisch dazu, dass ich Matrizen voll Parameter dabei habe und da muss ich irgendwas mit der
Überparameterisierung tun. Das Experiment hier zeigt es eben schön, dass ich die Trainingsmenge
gut gelernt habe, es ist kein Kriterium dafür, dass ich auch die Generalisierung gut kann.
Und um das wegzukriegen, gibt es zwei, wenn Sie so wollen, Fundamentalsäulen. Das eine
ist OKKAM, die ich nicht empfehlen würde und das andere ist eben diese bäsianische
Sichtweise, die sagt, eigentlich ist eine Lösung des Problems eine Verteilung, ein Ensemble
und wenn ein Kunde das nicht hören will, nimmst du halt den Mittelwert vom Ensemble.
Also so wie das hier dargestellt ist. Man könnte auch sagen, diese Architektur hier
ist die Verheiratung von OKKAM und BASE, weil auch hier habe ich ja am Ende nur ein einziges
Modell, also wie OKKAM das wollte, nur dass das Modell noch eine interne Strukturierung
hat, die dem BASE folgt. Das ist eben eine Angelegenheit, die man ja nach außen, wenn
man nur Input Output anguckt, gar nicht wissen muss. Also so gesehen haben wir das hier zusammengepackt.
Ja, dann haben wir schon mal gesagt, also Parallelverarbeitung von Algorithmen ist bei
Neuro nicht unkritisch, weil die eine Seite, also diese Darstellung hier erlaubt Parallelität
übers Ensemble, aber nicht über die Daten, weil hier wollte ich ja gerade Pattern-by-pattern-learning
machen. Die Seite, wenn ich ganz viele Daten habe, die erlaubt Parallelverarbeitung über
die Daten, den Datendurchsatz, aber da ist Ensemble nicht so wichtig, sprich da kann
ich auch mit einem Netzwerk rechnen. Und dann haben wir gesagt, ok, jetzt machen wir mal
ein Projekt für nonlinear regression. Das ist ja ein absolut typisches Beispiel. Erster
Punkt, ich muss mit den Daten umgehen, die vernünftig vorverarbeitung, sodass Neuro
Presenters
Zugänglich über
Offener Zugang
Dauer
01:15:50 Min
Aufnahmedatum
2019-04-16
Hochgeladen am
2019-04-18 11:23:26
Sprache
de-DE