Hallo, wir nehmen uns jetzt mal ein paar Minuten und schauen uns an, wie man die Dinge, die
wir gerade in der Vorlesung gelernt haben, auch praktisch jetzt in Python umsetzen kann.
Dazu setze ich voraus, dass jetzt auf einem Windows-PC eine Anaconda-Dissibulation läuft,
das ist eine Sammlung von Python-Modulen auf Windows, auf Linux oder auf Mac.
Wenn man das dann startet, dann öffnen sich im Browser dieses Fenster, ich habe jetzt
hier schon ein Jupyter Notebook, das ist dieses erste, dieses grüne Symbol hier, dann den
Datensatz, den Sie dann auch bekommen und eine Datendokumentation, die die Daten beschreibt.
Wenn wir jetzt hier dieses Script öffnen, das ich vorbereitet habe, dann können wir
damit den Datensatz uns ein bisschen genauer anschauen.
Hier was mal der Reihe nach durch.
Das erste ist ein Menge von Inputbefehlen, NumPy ist ein Python-Paket, das uns erlaubt,
mit Vektoren und Matrizen zu arbeiten.
Dieses Paket hier erlaubt uns zu plotten.
Pandas ist ein Framework, mit dem man sehr gut Data Science betreiben kann, das mit dieser
Art von tabellenbasierten Daten gut umgehen kann.
Dieser Befehl hier nimmt die rohe CSV-Datei, ich kann die mal kurz öffnen, wie die aussieht,
die ist das hier, also die Datei sieht jetzt so aus und die konvertiert es in etwas, was
wir mit Python besser bearbeiten können.
Wenn wir das dann ausgeben, ein Teil davon, das sind die ersten fünf Zeilen dieser Datei.
Also ihr seht schon, die Zeilen sind die einzelnen Objekte und die Spalten sind die Varianten
dieser Objekte.
Was bedeutet eigentlich diese, was bedeutet was ist dieser Datensatz hier?
Das ist ein Housing-Dataset, also da geht es um Häuser, die verkauft und gekauft wurden
in der Stadt Ames in Eero.
Und das hier ist die Dokumentationsdatei, das sind 2930 Häuser mit 82 Variablen und
die verschiedenen Variablen sind sowas wie, was für eine Art von Haus ist das, das ist
zum Beispiel ein einstöckiges Haus, neuer als 1946 oder ein Plan for development, das
ist sowas wie eine Sozialwohnung und so weiter.
Ein Zweifamilienhaus, das konvertiert wurde, ein Einfamilienhaus, das sind hier diese verschiedenen
Subtypen hier.
Dann was für ein Gebiet es ist, ob es ein Gewerbegebiet ist oder ein Wohngebiet, dann
die Anzahl von Feed, die an der Straße liegen, wie groß das Grundstück ist und so weiter.
Die Art der Straße, das Land flach oder leicht geneigt ist, wie die Küche ausgestattet ist,
wie die Nachbarschaft heißt, da ist alles drin, was man quasi an Informationen über
ein Haus sammeln kann, hier auch das Dach ist, hier hat das, wie das Dach gelegt ist,
was für eine Art von Garten es ist und so weiter.
Was mich am meisten interessiert ist ganz am Schluss, das ist der Sale Price, das heißt
der Betrag zu dem dieses Haus dann schlussendlich verkauft wurde.
Das heißt, das ist ein riesiger Datenplatz, also nicht riesig, aber im Vergleich zu dem,
was wir in der Verkaufsaufnahme hatten, 2930 Häuser und 82 Variablen, auf dem einen der
Verkaufspreis.
Hier sind die ganzen Kurzüberschriften, die dann beschrieben werden in diesem Dokument
und Panda, dieses Data Science Modul, speichert die in so einem Data Frame ab, wie hier.
Die erste Spalte, die ist hier gedoppelt, ist die ID, die eineutige, und dann kommen
hier die Parcel ID, das ist so eine Art Postarzahl und die anderen Spalten.
Wir sehen ja schon, wir haben sehr viele verschiedene Arten von Daten, Typen, Ordinalen, kategoriellen,
numerischen, wir haben auch fehlende Daten und wir haben vermutlich auch ein paar fehlerhafte
Daten drin.
Jetzt können wir eine Spalte auswählen, in der wir diesen Data Frame, der Data heißt,
in Anführungszeichen Sale Price, das gibt uns zurück diese Spalte hier.
Presenters
Zugänglich über
Offener Zugang
Dauer
00:12:58 Min
Aufnahmedatum
2021-02-22
Hochgeladen am
2021-02-22 13:37:22
Sprache
de-DE