Dieser Audiobeitrag wird von der Universität Erlangen-Nürnberg präsentiert.
Guten Tag allerseits.
Stella, entschuldige mich erst mal, dass ich so spät bin.
Ich bin leider in den anderen Hörsaage gedauert.
Jedenfalls freue ich mich, dass es hier doch noch einige noch nicht beim Anstich gibt.
Meine Arbeitsgruppe hat schon Wetten abgeschlossen, ob ich hier alleine stehen würde.
Aber das ist offensichtlich nicht der Fall.
Gut, so.
Wir beschäftigen uns im Moment mit entscheidungstheoretischen Agenten,
also Agenten, die in stochastischen, partiell observierbaren Umgebungen
rationale Entscheidungen versuchen zu treffen und wir gucken uns an, wie man das wohl hinkriegt.
Genau, das Ganze machen wir im Moment noch, im episodischen, das heißt wir haben ein Environment,
wo wir uns darauf beschränken, dass wir in einzelnen Episoden, in gequantelten Zeitschritten was machen,
das ist so wie bei Spielen, wenn man so ein Turn-based Spiel hat.
Wenn der Agent handelt, hat das Environment Pause.
Das ist natürlich unrealistisch, aber das macht die Sache einfacher.
Wir kommen dann später, ich hoffe, dass wir heute schon ein bisschen in die Richtung gehen,
zu sequenziellen Entscheidungsprozessen, Entscheidungsprozessen, wo Zeit tatsächlich eine Rolle spielt.
Genau, was wir machen, ist, dass wir, wir haben uns Präferenzen angeguckt zu dem Zwecke.
Im Wesentlichen, wenn wir Entscheidungstheorie machen wollen, dann müssen wir eine Nützlichkeitsfunktion haben,
die wir ja optimieren wollen und wir hatten uns angeguckt, wie wir an diese, wie wir da rankommen.
Und die Idee war im Wesentlichen, dass wenn man Präferenzen ermitteln kann, zwischen Zuständen im Wesentlichen,
Preisen sagen wir, und möglicherweise auch noch Lotterien, wenn wir in nicht deterministischen Umgebungen sind,
dann kann man daraus errechnen, falls sie auch noch gewissen Constraints unterliegen,
kann man errechnen, dass man, da kann man eine Nützlichkeitsfunktion errechnen.
Dabei ist es so, dass wenn man keine Lotterien in den Präferenzen hat, dann kann man nur eine Ordnung generieren.
Wenn man Lotterien mit drin hat, und die braucht man für nicht deterministische Umgebungen,
dann kriegt man eine metrische Funktion, die also tatsächlich Werte hat, obwohl es so ist, dass man,
dass man mit Umskalierungen das Verhalten nicht ändert.
Diese Umskalierungen kann man sich so ein bisschen vorstellen wie Temperaturen.
Im Sommer ist einem heiß, egal ob man das Ganze in Fahrenheit rechnet, das ist mal 2 plus 32,
oder ob man das in Celsius rechnet, das ist eigentlich egal ob es 30 Grad oder 100 Grad sind, unser Verhalten bleibt ähnlich,
und so ungefähr ist das hier auch. Was die Zahlen sind, ist wurscht.
Und was wir machen, ist eben, dass wir die erwartete Nützlichkeit unserer Handlungen maximieren.
Wir haben uns dann noch ein bisschen weiter Nützlichkeiten angeguckt,
wir hatten uns Standardisierungen, entweder zwischen 0 und 1, oder zwischen dem besten und dem schlechtesten aller möglichen Welten,
wobei schlechteste Welt sowas ist wie sofortiger Tod, und hatten uns ein bisschen angeguckt,
wie sich das da alles verhält, und hatten auch noch kurz über Geld gesprochen,
und gesehen, dass das keine Nützlichkeitsfunktion ist, weil sie eben gerade nicht linear ist in ihrem Verhalten.
Trotzdem, Nützlichkeit, Geld ist monoton, darauf können wir uns einigen,
auch wenn die zweite oder hundertste Million nicht mehr ganz so toll ist wie die erste Million, mehr Geld ist immer besser.
Das ist zumindest eine monotone Funktion, und für viele Sachen ist das schon ausreichend,
das heißt, man kann auch entweder in kleinen Bereichen, oder auch, wenn es auf die Zahlenwerte nicht so genau ankommt,
kann man auch Geld als Nützlichkeitsfunktion nehmen, und viele Leute tun das auch.
Okay, und dann hatten wir uns über Nützlichkeiten unterhalten, das war das Wesentliche, was wir das letzte Mal gemacht hatten.
Wie geht man mit Nützlichkeiten um, wenn es mehrere Attribute gibt,
also wenn man sozusagen nicht mehr so ganz einfach vergleichen kann, wenn man eine A-Note und eine B-Note hat,
ist es nicht mehr so ganz klar, was man stärker gewichtet.
Und da gibt es eine Reihe von Fragen, die wir uns angeguckt hatten, wir hatten immer dieses Beispiel mit dem Flughafen,
und hatten uns erst angeguckt, dass wenn wir strikte Dominanz haben, dann ist die Sache einfach, leider passiert das nicht sehr häufig,
Presenters
Zugänglich über
Offener Zugang
Dauer
01:20:14 Min
Aufnahmedatum
2017-06-01
Hochgeladen am
2017-06-08 20:32:17
Sprache
de-DE
Dieser Kurs beschäftigt sich mit den Grundlagen der Künstlichen Intelligenz (KI), insbesondere mit Techniken des Schliessens unter Unsicherheit, des maschinellen Lernens und dem Sprachverstehen.