Dieser Audiobeitrag wird von der Universität Erlangen-Nürnberg präsentiert.
Ja guten Tag allerseits, willkommen zum Finale von KI 2. Das große Finale kommt natürlich am
Dienstag, aber dies ist die letzte Vorlesung. Ich will heute noch so ein bisschen, wie immer
wiederholen vom letzten Mal, damit Sie Fragen stellen können. Ich gebe hier die Hoffnung nicht
auf und will dann noch so ein bisschen was zu naiven Base Modellen erzählen und dann
noch mal so eine Überblicksgesamtschau über KI1 und KI2 machen. Man sagt ja immer, wenn man
irgendwo runterspringt, dann kommt das ganze Leben an einem einmal vorbeigefahren,
in wenigen Sekunden, so ähnlich wie ich das auch für KI1 und KI2 machen, sodass Sie noch mal so
ein bisschen so eine Gesamtsicht auf das Ganze kriegen. Wir hatten eine neue Klasse von
Lernmethoden uns angeguckt, am Montag, die man unter statistischen Lernverfahren zusammenfassen kann.
Wir hatten uns BASIUS-Lernen angeguckt, hatten dann die Sache vereinfacht, weil beim BASIUS-Lernen
eine große Summe auftrat und dann haben wir uns ein bisschen Parameter-Lernen für BASIUS-Netzwerke
angeguckt. Im Wesentlichen ist die Idee beim BASIUS-Lernen, dass man sagt, man will ja die
Hypothese rauskriegen, irgendeine Hypothese aus dem Hypothesenraum rausklauben und mit dieser
Hypothese dann oder dem Anteil dieser Hypothese dann Voraussagen machen. Wenn man das einfach als
ein, nach jedem Beispiel sich das vorstellt, als ein BASIUS-Update auf die Wahrscheinlichkeitsverteilung
des Hypothesenraums, dann kriegt man sehr einfach so eine Formel hier, die ist ein ganz einfacher
BASIA-Update hier über diese Idee und wenn man dann mit diesen likelihood-Termen hier Voraussagen
machen will, dann ist das einfach, wenn man eine Voraussage über eine Variable, über die Verteilung
einer Variable x machen will, dann ist das gerade im Wesentlichen eine likelihood-gewichtete Summe
über die apostriori Wahrscheinlichkeiten unter den Hypothesen. Das ist einerseits sehr genau und
sehr schön und andererseits ganz fürchterlich, je nachdem wie groß der Hypothesenraum ist. Wir hatten
uns das genauer angeguckt bei einem Beispiel, das war unser Bonbon-Tüten-Beispiel und das war
natürlich so gewählt, dass man einerseits alle die Sachen daran zeigen kann und andererseits,
dass wir einen sehr kleinen Hypothesenraum haben. Für dieses Beispiel ist das okay,
aber schon für solche Entscheidungsbaum-artigen Hypothesenräume ist das vollkommen unrealistisch,
weil wir gesehen hatten, dass für einen Entscheidungsbaum mit n Attributen ist der
äquivalent zu der Anzahl der buchlischen Funktionen und davon gibt es eben sehr viele. Aber hier ist
alles gut, wunderbar, fünf Hypothesen, da können wir noch drüber summieren, wunderbar. Und wenn
man sich diese beiden Sachen hier jetzt anguckt, unter dieser Apriori-Verteilung der Hypothesen und
dieser Beobachtung, nämlich zehn Zitronenbonbons, dann kriegt man hier solche Kurven über die
Wahrscheinlichkeit der Hypothesen. Es fängt an, wenn man noch nichts beobachtet hat mit der
Apriori-Wahrscheinlichkeit und dann jede neue Beobachtung gibt mir eine Veränderung in die
Richtung der Verteilung. Genau, also Baum nehme ich mal an, dass Sie Entscheidungsbaum meinen und das
ist genau unser Hypothesenraum, richtig. Oder wenn wir einen Hypothesenraum über lineare
Klassifikatoren haben, dann wackelt man da irgendwelche, dann ist der Hypothesenraum eben
gerade zweidimensional, R2, hoch und runter und dann noch die Steigung. Und hier haben wir eben
nur die diskret fünf Hypothesen, aber die Analogie ist vollkommen richtig. Und hier bewertet man
einfach für wie viel Wahrscheinlichkeit man die hält, die Hypothese. Nach die Wahrscheinlichkeit
der Hypothese HI gegeben die Daten. Und das entwickelt sich ganz erfreulich, nach einer
Weile sind wir uns sicher, was es ist. Und wenn wir mit diesen Hypothesen jetzt anfangen über diese
gewichtete Summe Voraussagen zu machen, dann kriegt man eben eine wunderschöne Lernkurve.
Wir lernen also tatsächlich, was ist das nächste in diesem speziellen Fall. Das Problem ist, wir
können es nicht immer ausrechnen, weil die Hypothesenräume zu groß sind und wir über das
ganze Biest drüber summieren müssten und deswegen approximieren wir wieder. Genau das gleiche,
was wir immer gemacht haben. Und da gibt es eben verschiedene Arten. Man kann etwas, das nennt sich
die Maximum-Apostereu-Approximation. Da versucht man einfach die beste Hypothese zu finden,
die am besten zu jetzt unseren bisherigen Beobachtungen passt und dann hinterher mit
dieser Hypothese, dieser einen Hypothese Voraussagen zu machen. Da hat man einen
systematischen Fehler natürlich drin. Man konzentriert sich nur auf eine Hypothese zur
Presenters
Zugänglich über
Offener Zugang
Dauer
01:21:35 Min
Aufnahmedatum
2017-07-27
Hochgeladen am
2017-07-28 09:21:38
Sprache
de-DE
Dieser Kurs beschäftigt sich mit den Grundlagen der Künstlichen Intelligenz (KI), insbesondere mit Techniken des Schliessens unter Unsicherheit, des maschinellen Lernens und dem Sprachverstehen.