Hallo, wir sprechen heute über Linearegression.
Das ist ein sehr nützliches Tool in der numerischen Mathematik, in Statistik und auch in Data
Science.
Es ist recht schnell erklärt, was die Hauptproblemstellung ist.
Wir gehen davon aus, dass wir Daten gegeben haben.
Die Datenpunkte sind hier diese kleinen roten Kreuzchen.
Diese Daten sind verrauscht.
Das habe ich jetzt versucht mit diesen roten Balken zu visualisieren.
Das heißt, wir gehen davon aus, dass die Position der Punkte nicht exakt richtig ist,
sondern in gewisser Hinsicht gestörte oder verrauschte Daten sind.
Und die größten Ordnungen dieses Rauschens ist durch diese Balken gegeben.
Also die Datenpunkte sind einfach diese Kreuzchen, das ist schon richtig.
Aber diese Balken sollen veranschaulichen, dass wir davon ausgehen, dass die Daten nicht perfekt sind.
Und jetzt kann man sich diese Daten anschauen und gerade in Data Science wollen wir vielleicht
Vorhersagen treffen. Das bedeutet angenommen wir schauen uns diese x Position an, dann ist die Frage
wo müssen wir jetzt hier auf dieser Achse hier den Punkt eintragen. Also die Frage ist,
liegt der Punkt hier unten oder liegt er hier oben oder liegt er vielleicht irgendwo hier dazwischen.
Und der gesunde Menschenverstand sagt uns eigentlich schon, dass es im wesentlichen
irgendwas sein soll wie hier. Das heißt dieser Punkt in der Mitte ist vermutlich die richtige
Interpolation der Daten auf diesen Datenpunkt, der hier noch fehlt. Das lässt sich verallgemeinern
zu folgender Problemstellung. Wir geben diese Daten, was ist die stetige Funktion, die hier
durchgeht, die diese Daten im wesentlichen interpoliert. Nicht ganz interpoliert,
aber sagen wir, die den Trend in diesen Daten unter Berücksichtigung der Tatsache,
dass es verrauschte Daten sind, findet. Und eine Möglichkeit oder mehrere Möglichkeiten das zu
machen sind diese verschiedenen Geraten. Die Frage ist, wie kann man auf mathematisch
nachvollziehbar Art und Weise hier solche Linien zeichnen. Natürlich kann man es hier,
wie ich, einfach händisch was durchzeichnen und sagen, das ist der Trend. Nehmen wir aber
diesen Punkt. Das ist der Punkt. Aber erstens ist das keine verallgemeinerbare Methode und
funktioniert in hoher Dimension auf jeden Fall nicht. Stichwort höhere Dimensionen. Das sind
Punkte, die liegen in gewisser Hinsicht auf einer Art, in der Nähe einer Art Fläche.
Diese Fläche sieht etwa so aus. Das heißt, die höhere Dimensionen, die Allgemeinerung,
dieses Durchziehen einer Linie wäre, das finden so einer gekrönten Ebene, die,
naja, nicht perfekt durch all diese Datenpunkte, das tun diese Linie auch nicht,
aber die die wesentliche Idee der Daten wiedergibt. Mathematisch ist die Problemstörung folgendes.
Wir nehmen an, dass wir n Datenpunkte gegeben haben. Diese Datenpunkte x i, das sind die Punkte hier
unten. Also das ist x1, x2 und so weiter. Und hier ist dann, ich glaube, x11. Und zu diesen
Datenpunkten x1 bis xn haben wir n Beobachtungen, y1 bis yn. Und das hier sind die zugehörigen
y-Werte. Also hier y1 und hier oben y11. Hier dieser Punkt hat Koordinaten x11 und y11.
Zu diesen Daten versuchen wir jetzt eine Funktion f zu schätzen, sodass f von x i ungefähr y ist.
Das ist immer noch sehr vage. Jetzt sind wir noch keine mathematisch wasserdichte Formulierungen,
aber das führt uns schon in die richtige Richtung. Jetzt die Frage, warum f von x i ungefähr yi und
nicht f von x i ist gleich yi. Naja, wir haben ja gesagt, wir gehen ohnehin davon aus, dass die
Beobachtungen gestört sind und nicht die exakten Punkte sind, wo wir die Datenpunkte verorten würden.
Und warum wollen wir nicht exakt diese Punkte treffen? Also ich mache jetzt mal hier so ein
Beispiel. Wir haben Daten, die etwa so aussehen. Und wenn man jetzt weiß, dass da hinter Rausche
steckt, kann man sich überlegen, dass vermutlich eine Gerade, die hier durchgeht, im Wesentlichen
den Trend in den Daten ganz gut wiedergibt. Aber wenn wir fordern, dass f von x i genau durch yi
gehen würde, dann würde uns nichts anderes übrig bleiben, als so eine sehr stark oscillierende
Funktion zu wählen, die die ganze Zeit auf- und abzittert. Und typischerweise passiert nicht mal das,
dass diese Funktion hier so durch die Punkte nur so durchzittert, sondern wenn wir zum Beispiel
Presenters
Zugänglich über
Offener Zugang
Dauer
01:08:18 Min
Aufnahmedatum
2021-02-24
Hochgeladen am
2021-02-24 23:47:15
Sprache
de-DE