16 - Künstliche Intelligenz II [ID:8127]

50 von 558 angezeigt

Dieser Audiobeitrag wird von der Universität Erlangen-Nürnberg präsentiert.

So, wir hatten uns mit linearer Regression und Klassifikation behandelt. Die Idee war, dass man

sich den Hypothesenraum der linearen Funktionen anguckt. Wir hatten zwei Verfahren uns angeguckt.

Das eine war Regression, das ist im wesentlichen Voraussagen von Werten. Und Klassifikation ist,

die endlich viele Klassen von Werten, von Beispielen auszuzeichnen und einfach eine

diskretwertige Funktion zu lernen. Und typische Situation ist sowas hier. Wir haben eine Menge

von Beispielen und wir wollen die annähern durch eine lineare Funktion. Man kann sich vorstellen,

dass es in dem Fall keine perfekte Hypothese gibt, aber natürlich eine beste Hypothese.

Die Idee war, dass man lineare Funktionen von R nach R klassifizieren kann durch zwei Werte,

W1 und W0. Wir hatten deswegen immer vectorwertige Methoden gemacht. Und wie eigentlich immer,

was wir gemacht haben, war, dass wir den Verlust versucht haben zu minimieren. Das kann man hier

relativ einfach direkt machen bei linearer Regression. Wir haben einmal, wenn wir Beispiele

hier haben, dann Xi und Yi. Dann kann man vergleichen das Y, was wir eigentlich haben wollten,

und der Wert der Hypothese Hw, W war unser Parametergewichtvektor Hw von Xi. Und die

Abweichung messen wir einfach mit dieser squared error Funktion. Und wenn man dann das Ganze

einfach ausrechnet, dann sieht man, dass man hier so eine lineare Summe hat, die ist minimal,

wenn die erste Ableitung null ist. Und das kann ich einfach lösen. Zack, tippumm. Das heißt,

sowas hier kann man einfach direkt angeben. Lange bekannt, nahezu trivial, aber sehr nützlich.

Und wir hatten uns angeguckt, wir haben versucht, das zu verstehen. Und zwar ist es immer sehr nützlich,

und das ist auch bei all diesen Dingen, die wir jetzt heute machen werden bei den neuronalen

Netzen, es ist immer sehr interessant, sich immer vorzustellen, was im Gewichtsraum vor sich geht.

Und da haben wir einfach mal diese Funktionen hier, diese Funktion, den Verlust aufgezeichnet. Und

da sieht man hier, dass man eine konvex Funktion hat. Das heißt, wir haben irgendwie ein gutartiges

Problem, da können wir einfach lokale Suche darauf machen, selbst wenn wir keine Lösungen in

geschlossener Form berechnen können. Und da macht man einfach dieses gradient descent Verfahren,

das ist einfach so, man marschiert einfach in die Richtung, in der es am steißen runtergeht.

Das heißt, man guckt sich alle Gradienten an und geht in die Richtung dann weiter. Und das

funktioniert recht gut. Was wir jetzt für die neuronalen Netze brauchen werden, und deswegen

hatte ich die Linearegression auch genauer angeguckt, ist ein Klassifikationsproblem. Wir wollen

irgendwie die weißen von den schwarzen Punkten hier unterscheiden, und in diesem Fall sind sie

linearseparabel, das heißt, wir können da einfach eine Gerade zwischendurch wackeln. Und wenn wir

das können, wenn wir so eine Linie haben, die die trennt, oder allgemeiner irgendwie, wenn wir ein

mehrdimensionales Problem haben, irgendeine Hyper-Ebene haben, also N-1-dimensionale Unterraum, oder wenn

wir eine Linearität auch noch aufgeben, irgendeine Hyperfläche, die da um, die da irgendwie

zwischendrin herwabert, aber die wir mathematisch gut beschreiben können. Dann können wir auch

wiederum einen Klassifizierer bauen, das machen wir sehr einfach, indem wir einfach, in diesem Bild

hier sieht man, dass die weißen Punkte alle über dieser Linie liegen, das heißt, wenn ich sie einfach

in diese Gleichung minus 4,9 plus 1,7 x minus x2 gleich 0, das ist die Gleichung dieser Trennlinie,

die größeren Null liegen drüber, die kleineren Null liegen drunter, und wenn wir also jetzt diese

Hypothese haben, w von x, die wir für die Regression ausgerechnet haben, einfach durch

irgendeine Schwellenfunktion oder irgendwie so eine Sigmoid-Funktion durchleiten, das haben wir hier

oben gemacht, wir haben hier das Kreuzprodukt eingesetzt, verketten mit so einer entweder

Stufenfunktion oder einer Sigmoidal-Funktion, die also so ein bisschen eine weichere Stufenfunktion

ist, dann kriegen wir einen Klassifierer. Und wenn man dieses hier lösen will, wenn man hier lernen

will, dann hat man natürlich für diesen Klassifierer, kann man auch wieder anfangen, diese gleiche

Rechnung, die wir gemacht haben zu machen, und dann macht man Gradient Descent und kriegt hier

eine Update-Regel, diese Update-Regel des Gradient Descents kann man sofort einfach hinschreiben,

und das ist die Perceptron-Regel, und die werden wir wieder sehen heute, nämlich das ist genau

letztlich die Regel, die wir kriegen werden in den neuronalen Netzen zum Lernen. Und dann hatten wir

uns angeguckt, wie das denn mit der Konvergenz dieser Sachen ist, und das stellte sich heraus,

Teil einer Videoserie :

Künstliche Intelligenz II

Presenters

Prof. Dr. Michael Kohlhase

Zugänglich über

Offener Zugang

Dauer

01:23:03 Min

Aufnahmedatum

2017-07-06

Hochgeladen am

2017-07-06 17:15:42

Sprache

de-DE

Dieser Kurs beschäftigt sich mit den Grundlagen der Künstlichen Intelligenz (KI), insbesondere mit Techniken des Schliessens unter Unsicherheit, des maschinellen Lernens und dem Sprachverstehen.

Einbetten

Wordpress FAU Plugin

 https://www.fau.tv/clip/id/8127

iFrame

<iframe src="https://api.video.uni-erlangen.de/services/oembed/?url=https://www.fau.tv/clip/id/8127&format=iframe&maxwidth=1280&maxheight=720" width="1280" height="720"seamless allowfullscreen style="border: 0; padding: 0; margin: 0;overflow: hidden;"></iframe>

Herunterladen

Video

Audio

Per RSS abonnieren