5 - Informatische Werkzeuge in den Geistes- und Sozialwissenschaften II [ID:11497]
50 von 701 angezeigt

Letzte Woche und diese Woche kümmern wir uns um ein wichtiges Toolset der Informatik,

was gerade für die Digital Humanities wichtig ist. Wie gehen wir mit großen Daten persistent,

mit großen Datenmengen persistent oben.

Dabei ist es vor allen Dingen wichtig,

dass auch wenn die Datenmengen am Anfang klein sind,

dass man sozusagen praktisch beliebig skalieren kann.

Weil Daten so die Eigenschaft haben,

sich immer weiter zu verbreiten und immer mehr zu werden.

Und in den meisten Fällen sind das Mittel der Wahl Datenbanken und in den meisten Fällen

relationale Datenbanken und das ist genau das, was wir uns angucken werden.

Es gibt andere Datenbanken, es gibt sehr viele spezialisierte Datenbanken, es gibt Datenbanken,

die sich um unstrukturierte Daten kümmern, es gibt Datenbanken,

die sich im Wesentlichen um Trippel, also Semantik-Web-Strukturen, Graph-Strukturen kümmern,

es gibt Datenbanken, die sich um rechteckige Daten kümmern oder mehrdimensional rechteckige Daten,

also wenn sie zum Beispiel, sagen wir mal, ein Satelitenbilder haben.

Zeitreihen von Satelitenbildern, sagen wir mal, ein Satellit fliegt alle zwei Stunden über das Mittelmeer

und macht ein großes Bild vom Mittelmeer, was irgendwie 20 Terabyte groß ist,

Alle zwei Stunden bekommt man großen dreidimensionalen Klotz aus Daten und dann kann man sich zwar mit normalen techniques

einfach herausfinden, sozusagen, das Bild vom 24.01. um 10 Uhr, das kriegt man relativ leicht raus,

aber wenn man sozusagen rauskriegen will, wie hat sich die Stadt Rom verändert?

Das ist immer nur ein ganz kleiner Ausschnitt aus der ganzen Sache, aber wir sind ein ganzer Turm.

Weil will man nicht dadurch machen, dass man sich alle 20 Terabyte Bilder herunterlädt

und dann 10.000 Nikonauten rausschneidet und den Rest wieder wegschmeißt, ja!

Dafür gibt es Datenbanken.

Es gibt also viele verschiedenste Anwendungen,

Dafür gebaut sind relativ strukturell.

Strukturierte Daten.

Effizient.

Und skalierbar zu verwalten.

Wir haben uns angeguckt was Daten sind.

Daten sind sozusagen in der Informationsική relativ weit unten.

Jeder Fakt ist im Prinzip ein Datum.

Den können wir abspeichern.

sowas jenseits der 100.000 Zeilen wird, dann wird es irgendwie sehr unappetitlich.

Man kann Daten in Spreadsheets halten.

Da hat man activates also gewisse strukturelle Vorteile,

nämlich dass man so eine zweidimensionale Art hat.

Darauf zuzugreifen, mit Spalten und Zeilen, das ist relativ effizient.

Man kann damit auch direkt rechnen, das ist auch hübsch.

Es ist relativ langsam.

Und dann haben wir Datenbanken.

Und das ist das, was wir haben.

Sie sind im Vergleich zu Sachen im Hauptspeicher zu halten, immer noch relativ langsam.

Aber sie sind immerhin schneller, als Sachen auf die Platze zu schreiben.

Weil sie spezielle Techniken verwenden, um Sachen effizient wiederzufinden.

Der Zugriff ist schneller und der Organisationsgrad ist höher.

Wenn man die Daten nicht aus dem Rechner ausschaltet, sind die Anforderungen nicht im Memory.

Das ist das Anforderungspro NASA-Profile von Datenbanken.

Das ist die skalierbarste Methode, die wir heut den ganzen 2006.

Datenbestände im Terra bis Petarbeitbereich sind überhaupt kein Problem.

Zugänglich über

Offener Zugang

Dauer

01:32:59 Min

Aufnahmedatum

2019-05-23

Hochgeladen am

2019-05-28 22:52:29

Sprache

de-DE

Einbetten
Wordpress FAU Plugin
iFrame
Teilen