Hallo, herzlich willkommen zur ersten Vorlesung, Einführung in die Mathematische Datenanalyse.
Wir beginnen mit einer Einführung, was ist Data Science, was ist Datenanalyse und dann werden wir
über Datentypen sprechen und ein paar Notationen festlegen und Visualisierungen erklären,
die wir dann im Laufe der Vorlesung brauchen werden.
Eine Möglichkeit Data Science zu beschreiben, ist die, die ich mir jetzt hier überlegt habe.
Ein erster sehr lästiger, aber auch sehr wichtiger Schritt mit Daten umzugehen,
ist was tut man, wenn die Daten unformatiert sind, also nicht in einem Format, das leicht
von Rechnern lesen ist, wenn Einträge fehlen oder wenn sie falsch sind.
Dieser Strukturierungsprozess ist sehr kompliziert und sehr wichtig und schlecht automatisierbar,
aber eine wichtige Voraussetzung, um dann damit tatsächlich Data Science betreiben zu können.
Wenn dann die Daten formatiert sind und man sich überlegt hat, was man mit fehlerhaften
Daten macht oder mit fehlenden Daten macht, dann kann man anfangen die Daten zu verstehen,
in den Sinne, dass man sich die Daten jetzt genauer umschaut und versucht zu begreifen,
was für Variablen hier drin sind, wie die in Zusammenhang miteinander stehen und vielleicht
schon erste Hypothesen aufzustellen.
Das wird dann quantitativer im dritten Schritt, wenn man natürlich Data Analysis macht.
Hier hat man bereits einen Überblick sich verschafft über die Daten und man glaubt
jetzt eine gute Ahnung davon zu haben, was sich in den Daten versteckt und dann kann
man Hypothesen aufstellen, wie zum Beispiel diese Variable und diese Variable hängen
stark miteinander zusammen und dann kann man hier quantitative Methoden darauf anwenden.
Ein sehr wichtiger Schritt in der Data Science, wie sie dann in Unternehmen durchgeführt
wird, ist, sie werden dann nach dieser Vorlesung und auch nach ihrem Studiengang ein sehr gutes
Verständnis dafür haben, wie Data Science funktioniert, aber einer der wichtigsten Teile
von Data Science ist die Einsichten, die sie aus Datensätzen gewonnen haben, in gute Art
und Weise zu kommunizieren.
Das wird meistens grafisch funktionieren.
Ein letzter Schritt, einer den wir in dieser Vorlesung jetzt nur am Rande behandeln werden,
ist Machine Learning oder man kann das auch sagen Klassifikation oder Regression oder
Clustering.
Hier geht es darum, nicht nur mit den aktuellen Daten etwas zu tun, sondern Vorhersagen zu
künftigen Daten zu treffen.
Regeln zu erkennen, Muster in den Datensätzen zu verstehen, die Generalisierung ermöglichen.
Sie werden aber in anderen Vorlesungen dazu deutlich mehr lernen.
Während wir Computer nutzen können, ist Data Science und Statistik deutlich besser und
einfacher geworden, weil fast neben dieser 5 Schritte Automatisierungsprozesse die Arbeit
erleichtern können.
Das ist nämlich von Berechnungen viel einfacher mit Computern zu tun und auch Visualisierung
und das Blocken von Grafen ist mit Computer deutlich einfacher als das ganze mit Zettel
und Papier zu tun.
Natürlich gibt es verschiedene Möglichkeiten das zu machen.
Man kann mit Excel arbeiten oder mit Python.
Python ist aktuell einer der wichtigsten Script Sprachen in Data Science und Machine Learning.
Daher, wenn wir in diesem Kurs programmieren werden oder über Code sprechen werden, dann
werden wir mit Python arbeiten.
Es ist nicht Teil der Modulbeschreibung, das Arbeit mit Python.
Daher wird die Klausur keine Python Fragen stellen, aber sämtliche Anwendungsbezüge
mit Data Science Aufgaben werden natürlich den Einsatz einer Programmiersprache voraussetzen,
außer sie haben Lust einen 10.000 Zeilen Datensatz von Hand zu bearbeiten.
Daher ist es eher ein notwendiger Nebenschauplatz sich eine Programmiersprache auszuluchen,
mit der man gut umgehen kann und die man dort anwenden kann auf die Data Science Probleme
Presenters
Zugänglich über
Offener Zugang
Dauer
00:55:26 Min
Aufnahmedatum
2021-02-22
Hochgeladen am
2021-02-22 13:56:37
Sprache
de-DE