Dieser Audiobeitrag wird von der Universität Erlangen-Nürnberg präsentiert.
Ja hallo so alleseits.
Wir machen weiter mit Agenten in sequenziellen Umgebungen.
Wir hatten uns als letztes Markov-Ketten angeguckt und wollen dann, wenn wir die
Algorithmen dazu verstanden haben, vorstoßen in Richtung Entscheidungsprobleme für Markov,
also für sequenzielle Umgebungen. Und das Ganze soll dann irgendwann vermutlich am Donnerstag enden
in einem Agentendesign für sequenzielle, für einen online Agenten, also einen Agenten,
der letztliche Entscheidungen trifft, während er die Umgebung erkundet für solche partiell
observablen, stochastischen, sequenziellen Umgebungen. Das ist sozusagen das Schlimmste,
was uns passieren kann und das Problem im Wesentlichen seiner gesamten Allgemeinheit.
Danach werden wir uns dann Lernverfahren zuwenden und dann überhaupt den ganzen Komplexlernen
aufrollen, weil die Agenten natürlich irgendwie lernen müssen und nicht nur die Umgebung
explorieren müssen. Also was wir gemacht hatten, wir hatten, das war das typische Beispiel hier,
wir hatten sequenzielle Umgebungen modelliert. Im Wesentlichen war es so, dass wir solche
Basion-Netzwerke hatten, die in gewisser Weise so eine Art Time Slicing hatten. Wir hatten für
jede Zufallsvariable, hatten wir für jeden Zeitpunkt, hatten wir irgendwie eine Kopie
davon, das heißt wir haben das Ganze über die Zeit gestreckt und unsere Basion-Netze
hatten die Eigenschaft, dass man sozusagen immer lokale Kopien immer hintereinander
gesetzt hat und insbesondere, dass wir hier eine Markoff-Eigenschaft hatten, nämlich,
dass die Variablen zum Zeitpunkt t Eltern nur haben konnten im Zeitpunkt t-1 bzw. im gleichen
Zeitzeitschalbe. Das werden wir heute auch noch ein bisschen aufbauen zu etwas, das nennt sich
dynamische Basion-Netzwerke, die sind nämlich genau so wie dieses Beispiel hier läuft und
auf denen laufen dann im Wesentlichen diese Algorithmen, wie wir sie dann gesehen haben.
Wir haben uns Filtering angeguckt, als den Update des Belief-State, dann hatten wir uns
Vorhersagen angeguckt, wenn man nämlich das Netzwerk weiterlaufen lässt, ohne dass man
Beobachtungen macht. Wir hatten uns Smoothing angeguckt, das heißt Smoothing als Rückberechnen
der Zustände, wenn man nämlich dann auch noch mehr Beobachtungen hat, als zu dem Zeitpunkt
damals waren und dann hatten wir uns die beste Erklärung, die Influenz zur besten Erklärung
angeguckt, wenn man nämlich sich angucken will, welches ist die Zeitreihe, die am besten passt
zu unseren Beobachtungen. Dafür hatten wir Algorithmen uns angeguckt, die hatten alle
dieses Format, dass wir sie rekursive Algorithmen haben wollten, wo man einen neuen Wert ausrechnen
wollte aus einer Funktion, die die neue Beobachtung sich anguckte und den alten Belief-State.
Im Prinzip, wenn man sich das ein bisschen genauer anguckt, dann kommt man in eine Situation,
wo man irgendwie eine Art Forward, jetzt für Filtering hat man einen Forward-Update, Operator,
der eine Art Forward-Message, haben wir es genannt, verarbeitet und auf den alten Belief-State
in diesem Fall anwendet. Das ist diese Update-Funktion und wir haben gesehen, dass die konstant in
Zeit- und Platzverbrauch ist. Das ist genau das, was man will. Das war dieser Algorithmus
mit so einem Operator und das gibt uns immer so ein Fortschreiben und dann Einbeziehung
der Beobachtung, Fortschreiben, Einbeziehung der Beobachtung und so weiter und so fort.
Sonst ist das ein zeitlich konstantes Messing. Prediction funktioniert ganz genauso, da
ist es einfach so, dass wir weniger Beobachtungen haben. Wir lassen sozusagen diesen Prozess
leer laufen. Im Prinzip haben wir nur diesen Runterschritt hier, wo wir den neuen Wert,
die neue Beobachtung in Betracht ziehen. Lässt man dann aus, weil man keine neuen
Beobachtungen hat und wenn man das sehr weit in die Zukunft macht, dann hat man, und das
sieht man auch schon hier an diesem Beispiel, bekommt man irgendwie zu einem stationären
Zustand, weil man erreicht so eine Art Fixpunkt. In unserem Beispiel sieht man das, wenn man
hier die Fortschreibung macht, dann kommt man von einhalb auf einhalb und überhaupt
in diesem Beispiel funktioniert nur deswegen etwas Interessantes, weil wir das immer wieder
aktualisieren mit neuen Beobachtungen. Wenn wir das nicht tun, wenn dieser Schritt hier
ausfällt oder der Schritt, für Vorhersagen ist das hier genau der Fall, erreichen wir
Presenters
Zugänglich über
Offener Zugang
Dauer
01:26:41 Min
Aufnahmedatum
2017-06-19
Hochgeladen am
2017-06-19 16:42:18
Sprache
de-DE
Dieser Kurs beschäftigt sich mit den Grundlagen der Künstlichen Intelligenz (KI), insbesondere mit Techniken des Schliessens unter Unsicherheit, des maschinellen Lernens und dem Sprachverstehen.