Ich würde gerne mit der Wiederholung jetzt direkt bei dem reinforcement learning anfangen und die
Idee war ja, dass die Art wie ich das dargestellt habe von der klassischen optimal control Theorie
für diskrete Zeit startet und dann übergeht auf Situationen wo man die Gleichung nicht ex
antergegeben hat sondern wo man die über daten bestimmen muss und wie solche verfahren
datengetriebene beschreibung des dynamischen systems und optimales verhalten zusammenhängen
darum geht es dann so jetzt haben wir das qualitativ erstmal so aufgeteilt dass wir gesagt haben was
man eben können muss ist das system verstehen was hier abläuft und hier ist ein technisches
beispiel nämlich eine wind turbine die steht irgendwo vor dänemark und das heißt also ich
muss den zusammenhangen kennen zwischen wind flügelstellung strom erzeugung diese ganze
mechanik oder auch mathematik dahinter als dynamisches system weil es ist klar so eine
große anlage hier hat ein gedächtnis also wenn sich das schlagachtig was ändern würde dann
braucht die maschine eine ganze zeit lang um sich darauf einzustellen sprich die gegenwärtige
sensore gesagt einem nicht wie es die maschine im innen geht da brauchen wir eben paar paar schritte
in der abfolge um ausrechnen zu können was ist der innere zustand des systeme aber zunächst mal muss
ich die identifikation machen dann kann ich sagen ok jetzt kann ich ausrechnen was der innere
zustand des systems und dann kann ich versuchen auszurechnen eine optimale steuerung die mir erlaubt
das so zu steuern dass man das wie strom erzeugt wird das wollen wir erstmal von der mathematik
hier angehen sprich abstrakt dann haben wir gesagt ja gut also dynamik heißt ich habe eine
beschreibung des dynamischen systems und jetzt geht aber nicht darum was in der vergangenheit
los war sondern es geht darum wie muss ich mich verhalten wenn ich in richtung zukunft schaue
sprich ich muss eine reward function haben die von der gegenwärtigen richtung zukunft geht und dann
frage ich mich gegeben dass die gleichung da oben stimmen wie müsste ich über einen ganzen zeitfahrt
hinweg meine steuerungen machen so dass diese zielfunktion möglichst klein oder möglichst groß
wird also möglichst groß wäre der energie output von dem von der windturbine da möglichst klein
wäre zum beispiel die die vibrationen in der maschine also kann man sich alles mögliche
ausdenken wie man die steuerungen machen könnte und die steuerungen in unserem beispiel was
wir da vorne hatten wir zum beispiel die die die winkel anstellung von den flügelblättern
näher und es will man eben nicht nur für einen zeitpunkt in richtung zukunft entscheiden sondern
für den ganzen zeitfahrt in richtung zukunft und das ist unsere zielfunktion die wir jetzt haben
und grundsätzlich gesehen haben wir wenn wir den himmelton lacrosse ansatz haben himmelton
lacrosse ansatz angucken ja dann haben wir ja hier eine zielfunktion mit gleichungsnebenbedingungen
so dass man sich diese lacrosse multiplier methode darauf vorstellen kann sprich des lösen von der
optimierungsaufgabe unter berücksichtigung der gleichungsnebenbedingungen kann man so schreiben
dass man eine erweiterte zielfunktion schreibt wo dann nach allen variablen abgeleitet wird und
unser unser und der unterschied hier also das erweiterte problem besteht eben darin ich habe
nicht nur ein system von nebenbedingungsgleichungen sondern eine ganze sequenz von nebenbedingungsgleichungen
deswegen kann ich also nicht unmittelbar mit dem lacrosse hier arbeiten sondern muss eine andere
art von analogie zu lacrosse machen nämlich die himmelton funktionen die sieht halt so aus und
dann kann ich wieder die notwendigen bedingungen für eine optimale steuerung schreiben als ableitung
der himmelton funktionen all möglichen variablen die da drin vorkommt also der beweist der steht
hier das ist ein bisschen umrechnen mit zeitverschiebungen hier damit man jeweils die
richtigen indizes auf einer ebene hat und was aber rauskommt ist naja ich will das dynamische
system aufrechterhalten zweitens die berücksichtigung der zukunft hier findet statt über eine
adjungierte gleichung die von der zukunft in richtung vergangenheit information transportiert
dann haben wir eine gleichgewichtsbedingungen die sagen ja wenn du die die vorwärts und die
rückwärtsinformationen hier alle zusammentust dann sollst du gefälligst in jedem zeitpunkt
eine gleichgewichtsbedingungen erfüllen sollst du die steuerung machen so dass der null rauskommt
und das könnte man sich so vorstellen dass man sagt naja wir schätzen erst mal eine steuerung
oder dann können wir das hier ausrechnen und wenn ich das ausgerechnet habe dann kann ich auch weil
ich ja dann s und u und ja den ganzen zeitfahrt in der richtung zukunft kenne könnte ich dann
Presenters
Zugänglich über
Offener Zugang
Dauer
01:49:04 Min
Aufnahmedatum
2021-04-12
Hochgeladen am
2021-04-12 19:17:40
Sprache
de-DE