2 - VL_1_2_Python [ID:29917]
50 von 123 angezeigt

Hallo, wir nehmen uns jetzt mal ein paar Minuten und schauen uns an, wie man die Dinge, die

wir gerade in der Vorlesung gelernt haben, auch praktisch jetzt in Python umsetzen kann.

Dazu setze ich voraus, dass jetzt auf einem Windows-PC eine Anaconda-Dissibulation läuft,

das ist eine Sammlung von Python-Modulen auf Windows, auf Linux oder auf Mac.

Wenn man das dann startet, dann öffnen sich im Browser dieses Fenster, ich habe jetzt

hier schon ein Jupyter Notebook, das ist dieses erste, dieses grüne Symbol hier, dann den

Datensatz, den Sie dann auch bekommen und eine Datendokumentation, die die Daten beschreibt.

Wenn wir jetzt hier dieses Script öffnen, das ich vorbereitet habe, dann können wir

damit den Datensatz uns ein bisschen genauer anschauen.

Hier was mal der Reihe nach durch.

Das erste ist ein Menge von Inputbefehlen, NumPy ist ein Python-Paket, das uns erlaubt,

mit Vektoren und Matrizen zu arbeiten.

Dieses Paket hier erlaubt uns zu plotten.

Pandas ist ein Framework, mit dem man sehr gut Data Science betreiben kann, das mit dieser

Art von tabellenbasierten Daten gut umgehen kann.

Dieser Befehl hier nimmt die rohe CSV-Datei, ich kann die mal kurz öffnen, wie die aussieht,

die ist das hier, also die Datei sieht jetzt so aus und die konvertiert es in etwas, was

wir mit Python besser bearbeiten können.

Wenn wir das dann ausgeben, ein Teil davon, das sind die ersten fünf Zeilen dieser Datei.

Also ihr seht schon, die Zeilen sind die einzelnen Objekte und die Spalten sind die Varianten

dieser Objekte.

Was bedeutet eigentlich diese, was bedeutet was ist dieser Datensatz hier?

Das ist ein Housing-Dataset, also da geht es um Häuser, die verkauft und gekauft wurden

in der Stadt Ames in Eero.

Und das hier ist die Dokumentationsdatei, das sind 2930 Häuser mit 82 Variablen und

die verschiedenen Variablen sind sowas wie, was für eine Art von Haus ist das, das ist

zum Beispiel ein einstöckiges Haus, neuer als 1946 oder ein Plan for development, das

ist sowas wie eine Sozialwohnung und so weiter.

Ein Zweifamilienhaus, das konvertiert wurde, ein Einfamilienhaus, das sind hier diese verschiedenen

Subtypen hier.

Dann was für ein Gebiet es ist, ob es ein Gewerbegebiet ist oder ein Wohngebiet, dann

die Anzahl von Feed, die an der Straße liegen, wie groß das Grundstück ist und so weiter.

Die Art der Straße, das Land flach oder leicht geneigt ist, wie die Küche ausgestattet ist,

wie die Nachbarschaft heißt, da ist alles drin, was man quasi an Informationen über

ein Haus sammeln kann, hier auch das Dach ist, hier hat das, wie das Dach gelegt ist,

was für eine Art von Garten es ist und so weiter.

Was mich am meisten interessiert ist ganz am Schluss, das ist der Sale Price, das heißt

der Betrag zu dem dieses Haus dann schlussendlich verkauft wurde.

Das heißt, das ist ein riesiger Datenplatz, also nicht riesig, aber im Vergleich zu dem,

was wir in der Verkaufsaufnahme hatten, 2930 Häuser und 82 Variablen, auf dem einen der

Verkaufspreis.

Hier sind die ganzen Kurzüberschriften, die dann beschrieben werden in diesem Dokument

und Panda, dieses Data Science Modul, speichert die in so einem Data Frame ab, wie hier.

Die erste Spalte, die ist hier gedoppelt, ist die ID, die eineutige, und dann kommen

hier die Parcel ID, das ist so eine Art Postarzahl und die anderen Spalten.

Wir sehen ja schon, wir haben sehr viele verschiedene Arten von Daten, Typen, Ordinalen, kategoriellen,

numerischen, wir haben auch fehlende Daten und wir haben vermutlich auch ein paar fehlerhafte

Daten drin.

Jetzt können wir eine Spalte auswählen, in der wir diesen Data Frame, der Data heißt,

in Anführungszeichen Sale Price, das gibt uns zurück diese Spalte hier.

Zugänglich über

Offener Zugang

Dauer

00:12:58 Min

Aufnahmedatum

2021-02-22

Hochgeladen am

2021-02-22 13:37:22

Sprache

de-DE

Einbetten
Wordpress FAU Plugin
iFrame
Teilen