17 - Mathematische Grundlagen zu Künstliche Intelligenz, Neuronale Netze und Data Analytics II [ID:30833]
50 von 989 angezeigt

Ich würde gerne mit der Wiederholung jetzt direkt bei dem reinforcement learning anfangen und die

Idee war ja, dass die Art wie ich das dargestellt habe von der klassischen optimal control Theorie

für diskrete Zeit startet und dann übergeht auf Situationen wo man die Gleichung nicht ex

antergegeben hat sondern wo man die über daten bestimmen muss und wie solche verfahren

datengetriebene beschreibung des dynamischen systems und optimales verhalten zusammenhängen

darum geht es dann so jetzt haben wir das qualitativ erstmal so aufgeteilt dass wir gesagt haben was

man eben können muss ist das system verstehen was hier abläuft und hier ist ein technisches

beispiel nämlich eine wind turbine die steht irgendwo vor dänemark und das heißt also ich

muss den zusammenhangen kennen zwischen wind flügelstellung strom erzeugung diese ganze

mechanik oder auch mathematik dahinter als dynamisches system weil es ist klar so eine

große anlage hier hat ein gedächtnis also wenn sich das schlagachtig was ändern würde dann

braucht die maschine eine ganze zeit lang um sich darauf einzustellen sprich die gegenwärtige

sensore gesagt einem nicht wie es die maschine im innen geht da brauchen wir eben paar paar schritte

in der abfolge um ausrechnen zu können was ist der innere zustand des systeme aber zunächst mal muss

ich die identifikation machen dann kann ich sagen ok jetzt kann ich ausrechnen was der innere

zustand des systems und dann kann ich versuchen auszurechnen eine optimale steuerung die mir erlaubt

das so zu steuern dass man das wie strom erzeugt wird das wollen wir erstmal von der mathematik

hier angehen sprich abstrakt dann haben wir gesagt ja gut also dynamik heißt ich habe eine

beschreibung des dynamischen systems und jetzt geht aber nicht darum was in der vergangenheit

los war sondern es geht darum wie muss ich mich verhalten wenn ich in richtung zukunft schaue

sprich ich muss eine reward function haben die von der gegenwärtigen richtung zukunft geht und dann

frage ich mich gegeben dass die gleichung da oben stimmen wie müsste ich über einen ganzen zeitfahrt

hinweg meine steuerungen machen so dass diese zielfunktion möglichst klein oder möglichst groß

wird also möglichst groß wäre der energie output von dem von der windturbine da möglichst klein

wäre zum beispiel die die vibrationen in der maschine also kann man sich alles mögliche

ausdenken wie man die steuerungen machen könnte und die steuerungen in unserem beispiel was

wir da vorne hatten wir zum beispiel die die die winkel anstellung von den flügelblättern

näher und es will man eben nicht nur für einen zeitpunkt in richtung zukunft entscheiden sondern

für den ganzen zeitfahrt in richtung zukunft und das ist unsere zielfunktion die wir jetzt haben

und grundsätzlich gesehen haben wir wenn wir den himmelton lacrosse ansatz haben himmelton

lacrosse ansatz angucken ja dann haben wir ja hier eine zielfunktion mit gleichungsnebenbedingungen

so dass man sich diese lacrosse multiplier methode darauf vorstellen kann sprich des lösen von der

optimierungsaufgabe unter berücksichtigung der gleichungsnebenbedingungen kann man so schreiben

dass man eine erweiterte zielfunktion schreibt wo dann nach allen variablen abgeleitet wird und

unser unser und der unterschied hier also das erweiterte problem besteht eben darin ich habe

nicht nur ein system von nebenbedingungsgleichungen sondern eine ganze sequenz von nebenbedingungsgleichungen

deswegen kann ich also nicht unmittelbar mit dem lacrosse hier arbeiten sondern muss eine andere

art von analogie zu lacrosse machen nämlich die himmelton funktionen die sieht halt so aus und

dann kann ich wieder die notwendigen bedingungen für eine optimale steuerung schreiben als ableitung

der himmelton funktionen all möglichen variablen die da drin vorkommt also der beweist der steht

hier das ist ein bisschen umrechnen mit zeitverschiebungen hier damit man jeweils die

richtigen indizes auf einer ebene hat und was aber rauskommt ist naja ich will das dynamische

system aufrechterhalten zweitens die berücksichtigung der zukunft hier findet statt über eine

adjungierte gleichung die von der zukunft in richtung vergangenheit information transportiert

dann haben wir eine gleichgewichtsbedingungen die sagen ja wenn du die die vorwärts und die

rückwärtsinformationen hier alle zusammentust dann sollst du gefälligst in jedem zeitpunkt

eine gleichgewichtsbedingungen erfüllen sollst du die steuerung machen so dass der null rauskommt

und das könnte man sich so vorstellen dass man sagt naja wir schätzen erst mal eine steuerung

oder dann können wir das hier ausrechnen und wenn ich das ausgerechnet habe dann kann ich auch weil

ich ja dann s und u und ja den ganzen zeitfahrt in der richtung zukunft kenne könnte ich dann

Zugänglich über

Offener Zugang

Dauer

01:49:04 Min

Aufnahmedatum

2021-04-12

Hochgeladen am

2021-04-12 19:17:40

Sprache

de-DE

Einbetten
Wordpress FAU Plugin
iFrame
Teilen