wheels
Diesen Audiobeitrag wird von der Universität Erlangen Nürnberg präsentiert.
Wir haben noch das ganz große Thema fertig zu machen. Wie bauen wir
wie bauen wir Agenten, die sich in stochastischen, partiell beobachtbaren Umgebungen zurechtfinden
können und mit zurechtfinden können, meinen wir immer, rational entscheiden können, was die
nächste Aktion ist. Wir hatten dafür verschiedene Werkzeuge in einer Wahrscheinlichkeitstheorie
entwickelt, das Ganze gipfelte dann in Bayerischen Netzwerken und dann hinterher, wenn wir uns um
sequenzielle Umgebungen kümmern in dynamischen Bayerischen Netzwerken und da hatten wir am
Montag angefangen. Dynamische Bayerische Netzwerke sind Bayerische Netzwerke, die irgendwie in
Zeitscheiben aufgebaut werden. Wir haben so immer einzelne Zeitscheiben, wie diese sehr
einfach hier, beziehungsweise hier, so eine etwas größere Zeitscheibe für dieses Netzwerk, für
diesen selbstfahrenden Roboter und die Idee dabei ist, dass die Zeitscheiben einfach diskret, aber
potenziell unendlich lang repliziert sind und durch temporale Links verbunden werden und die
temporalen Links sind so angeordnet, dass die temporalen Links einfach eine First-Order-Malkopf
Eigenschaft haben. Das heißt, man hat immer nur Links, also Elternlinks in die davor liegende
Zeitscheibe oder innerhalb der Zeitscheibe in so einem dynamischen Bayerischen Netz. Und wenn man
das macht, dann ist das natürlich eine Verallgemeinerung von allerlei Dingen,
nämlich HMMs, offensichtlich Markovketten und so weiter und wir kriegen diese Algorithmen,
die wir auf diesen einfachen Netzwerken kriegen, sehen wir im Wesentlichen auf den dynamischen
Bayerischen Netzwerken wieder. Man kann auch andersherum gehen, wie typischerweise, man gewinnt
nicht an theoretischer Expressivität gegenüber zum Beispiel hinten Markov-Modellen, aber wir
gewinnen an Kompaktheit und Struktur. Wir hatten uns überlegt, dass wenn wir so ein dynamisches
Bayerisches Netzwerk haben, können wir das in HMM überführen, aber wir kriegen eine Explosion
von Abhängigkeiten, weil wir diese Stratifizierung, die wir hier hatten, ohne irgendwelche Einflüsse
zwischen den einzelnen Dingern, die verlieren wir und wir kriegen ein vollständig verbundenes
Netzwerk, was erstens sehr viel größer ist und zweitens durch die vielen Verbindungen sehr viel
schlechter handhabbar ist. Und wir haben uns dann Algorithmen so ein bisschen angeguckt, die
funktionieren im Wesentlichen wie die, die wir schon gesehen haben, nur dadurch, dass das Ganze
allgemeiner ist, diese dynamischen Bayerischen Netzwerke lassen sich auch auf den kontinuierlichen
Fall anwenden, wo man dann solche Dinge wie Kalmanfelder kriegt oder so etwas und diese
Verallgemeinerung bezahlen wir natürlich durch einen gewissen Strukturverlust und durch größere
Schwierigkeiten in den Algorithmen. Alles, was ich damit eigentlich zeigen will, ist, wir haben da
ein schönes theoretisches Framework, auf dem können wir rechnen, auf dem können wir Filtering,
Smoothing, alle diese Dinge tun. Manchmal muss man die Algorithmen etwas genauer betrachten,
es gibt da Fortgeschritte an Algorithmen wie zum Beispiel dieses Particle Filtering,
was im Wesentlichen das Problem, dass man in dynamischen Bayerischen Netzwerken so eine
lineare Abhängigkeit von der Zeit in die Komplexität rein kriegt, dass die wieder los wird,
indem man gewisse Approximationen macht und damit dann immer noch irgendwie skalierbar rechnen kann.
Gut, das war die Wahrscheinlichkeitstheorie. Nächste, was wir gemacht haben, war in die
Entscheidungstheorie überzugehen und das Konzept, was man da relativ natürlich kriegt,
sind sequenzielle Entscheidungsprobleme, das heißt Entscheidungsprobleme, die genau durch diese
dynamischen Bayerischen Netzwerke entstehen. Wir erinnern uns bei den episodischen, im episodischen
Fall hatten wir die Bayerischen Netzwerke erweitert um Aktions- und Nützlichkeitsknoten und bekamen
dann Entscheidungsnetzwerke und was wir hier machen, ist, dass wir im Wesentlichen genau das
Gleiche machen. Wir addieren Nützlichkeit und Aktionen und kriegen dann dynamische Entscheidungsnetzwerke.
Unser Beispiel war diese kleine 4x3-Welt und wir hatten gesehen, dadurch, dass wir in diese
Markov-Entscheidungsprobleme kommen, MDPs, wo man ein Übergangsmodell hat und eine Belohnungsfunktion,
dass man da von der Idee, dass man einen Plan hat, übergehen muss dazu, dass man eine Policy hat.
Warum? Weil man eben nicht mehr voraussehen kann, wo man bleibt. Das heißt, diese einfache lineare
Aneinanderkettung, ich mache erst das, dann das und dann das und dann das und dann das und dann das
Presenters
Zugänglich über
Offener Zugang
Dauer
01:20:12 Min
Aufnahmedatum
2017-06-22
Hochgeladen am
2017-06-22 17:02:10
Sprache
de-DE
Dieser Kurs beschäftigt sich mit den Grundlagen der Künstlichen Intelligenz (KI), insbesondere mit Techniken des Schliessens unter Unsicherheit, des maschinellen Lernens und dem Sprachverstehen.