Dieser Audiobeitrag wird von der Universität Erlangen-Nürnberg präsentiert.
So, wir hatten uns mit linearer Regression und Klassifikation behandelt. Die Idee war, dass man
sich den Hypothesenraum der linearen Funktionen anguckt. Wir hatten zwei Verfahren uns angeguckt.
Das eine war Regression, das ist im wesentlichen Voraussagen von Werten. Und Klassifikation ist,
die endlich viele Klassen von Werten, von Beispielen auszuzeichnen und einfach eine
diskretwertige Funktion zu lernen. Und typische Situation ist sowas hier. Wir haben eine Menge
von Beispielen und wir wollen die annähern durch eine lineare Funktion. Man kann sich vorstellen,
dass es in dem Fall keine perfekte Hypothese gibt, aber natürlich eine beste Hypothese.
Die Idee war, dass man lineare Funktionen von R nach R klassifizieren kann durch zwei Werte,
W1 und W0. Wir hatten deswegen immer vectorwertige Methoden gemacht. Und wie eigentlich immer,
was wir gemacht haben, war, dass wir den Verlust versucht haben zu minimieren. Das kann man hier
relativ einfach direkt machen bei linearer Regression. Wir haben einmal, wenn wir Beispiele
hier haben, dann Xi und Yi. Dann kann man vergleichen das Y, was wir eigentlich haben wollten,
und der Wert der Hypothese Hw, W war unser Parametergewichtvektor Hw von Xi. Und die
Abweichung messen wir einfach mit dieser squared error Funktion. Und wenn man dann das Ganze
einfach ausrechnet, dann sieht man, dass man hier so eine lineare Summe hat, die ist minimal,
wenn die erste Ableitung null ist. Und das kann ich einfach lösen. Zack, tippumm. Das heißt,
sowas hier kann man einfach direkt angeben. Lange bekannt, nahezu trivial, aber sehr nützlich.
Und wir hatten uns angeguckt, wir haben versucht, das zu verstehen. Und zwar ist es immer sehr nützlich,
und das ist auch bei all diesen Dingen, die wir jetzt heute machen werden bei den neuronalen
Netzen, es ist immer sehr interessant, sich immer vorzustellen, was im Gewichtsraum vor sich geht.
Und da haben wir einfach mal diese Funktionen hier, diese Funktion, den Verlust aufgezeichnet. Und
da sieht man hier, dass man eine konvex Funktion hat. Das heißt, wir haben irgendwie ein gutartiges
Problem, da können wir einfach lokale Suche darauf machen, selbst wenn wir keine Lösungen in
geschlossener Form berechnen können. Und da macht man einfach dieses gradient descent Verfahren,
das ist einfach so, man marschiert einfach in die Richtung, in der es am steißen runtergeht.
Das heißt, man guckt sich alle Gradienten an und geht in die Richtung dann weiter. Und das
funktioniert recht gut. Was wir jetzt für die neuronalen Netze brauchen werden, und deswegen
hatte ich die Linearegression auch genauer angeguckt, ist ein Klassifikationsproblem. Wir wollen
irgendwie die weißen von den schwarzen Punkten hier unterscheiden, und in diesem Fall sind sie
linearseparabel, das heißt, wir können da einfach eine Gerade zwischendurch wackeln. Und wenn wir
das können, wenn wir so eine Linie haben, die die trennt, oder allgemeiner irgendwie, wenn wir ein
mehrdimensionales Problem haben, irgendeine Hyper-Ebene haben, also N-1-dimensionale Unterraum, oder wenn
wir eine Linearität auch noch aufgeben, irgendeine Hyperfläche, die da um, die da irgendwie
zwischendrin herwabert, aber die wir mathematisch gut beschreiben können. Dann können wir auch
wiederum einen Klassifizierer bauen, das machen wir sehr einfach, indem wir einfach, in diesem Bild
hier sieht man, dass die weißen Punkte alle über dieser Linie liegen, das heißt, wenn ich sie einfach
in diese Gleichung minus 4,9 plus 1,7 x minus x2 gleich 0, das ist die Gleichung dieser Trennlinie,
die größeren Null liegen drüber, die kleineren Null liegen drunter, und wenn wir also jetzt diese
Hypothese haben, w von x, die wir für die Regression ausgerechnet haben, einfach durch
irgendeine Schwellenfunktion oder irgendwie so eine Sigmoid-Funktion durchleiten, das haben wir hier
oben gemacht, wir haben hier das Kreuzprodukt eingesetzt, verketten mit so einer entweder
Stufenfunktion oder einer Sigmoidal-Funktion, die also so ein bisschen eine weichere Stufenfunktion
ist, dann kriegen wir einen Klassifierer. Und wenn man dieses hier lösen will, wenn man hier lernen
will, dann hat man natürlich für diesen Klassifierer, kann man auch wieder anfangen, diese gleiche
Rechnung, die wir gemacht haben zu machen, und dann macht man Gradient Descent und kriegt hier
eine Update-Regel, diese Update-Regel des Gradient Descents kann man sofort einfach hinschreiben,
und das ist die Perceptron-Regel, und die werden wir wieder sehen heute, nämlich das ist genau
letztlich die Regel, die wir kriegen werden in den neuronalen Netzen zum Lernen. Und dann hatten wir
uns angeguckt, wie das denn mit der Konvergenz dieser Sachen ist, und das stellte sich heraus,
Presenters
Zugänglich über
Offener Zugang
Dauer
01:23:03 Min
Aufnahmedatum
2017-07-06
Hochgeladen am
2017-07-06 17:15:42
Sprache
de-DE
Dieser Kurs beschäftigt sich mit den Grundlagen der Künstlichen Intelligenz (KI), insbesondere mit Techniken des Schliessens unter Unsicherheit, des maschinellen Lernens und dem Sprachverstehen.