Das Band läuft. Ich habe vor, ich weiß es nicht genau,
irgendwas zwischen ein oder zwei Jahren angefangen, mich mit so ein paar Basiswörtern zu beschäftigen.
Und eins dieser Basiswörter war Data Science. Ja, und die anderen waren Pearl und Raku.
Naja, und dann noch so ein paar andere, so Cloud, Kubernetes, Empathie und Cyber Security und ja,
noch so ein paar habe ich vergessen jetzt im Moment, ist auch nicht so wichtig.
Heute geht es um Data Science, insbesondere mit Pearl und Raku und um solche Fragen wie Warum und Was und Wie jetzt.
Ja, genau, ich bin der Sören aus Frankfurt. Das wisst ihr inzwischen.
Warum soll man sich damit überhaupt beschäftigen, habe ich mir überlegt.
Da gibt es eigentlich ziemlich viele Gründe. Ich fange mal mit einem an, weil sonst wird es unübersichtlich.
Das ist so ein Trend. Man hört ganz viel Data Science, Data Science, Data Science,
wenn man nicht gerade Kubernetes oder Empathie hört oder Cloud oder was auch immer.
Und es gibt viele, viele Stellenanlances, die wollen plötzlich Data Scientists haben.
Und Beispiele habe ich jetzt mal gedacht, damit man das auch belegen kann, habe ich ein paar Screenshots gemacht.
Ja, das ist wahrscheinlich zu klein, aber das sind irgendwie so 7500 auf der einen Seite und 4000 auf der anderen Seite,
wenn man nach Data Science sucht. Und wenn man dann nach Big Data sucht, dann sind das links glaube ich irgendwie,
man kann es nicht so genau sehen, 8000 und rechts 6000. Also ordentlich, nur in Deutschland.
Also wenn jemand eine neue Stelle haben will und was anderes machen will als bisher, dann könnte man zum Beispiel Data Science lernen.
Ja, und warum interessieren sich die Leute für Data, für Daten? Was ist das? Informationen.
Da gibt es so einen Satz, den liest man eigentlich in jeder Publikation zum Thema Big Data oder Data Science oder was auch immer.
Eigentlich in, ich habe so das Gefühl, ich sehe den in jedem Zeitungsartikel.
Und da steht drin, dass die Menge der Informationen, die die Menschheit gesammelt und irgendwie verfügbar gemacht oder überhaupt bereit hält,
alle zwei Jahre sich verdoppelt und zwar komplett zurück. Ganz, ganz toll.
Das Sternchen ist nachher für die Notizen, wie das denn so mit der Quellenlage ist.
Früher war das sehr, sehr, sehr teuer, größere Mengen von Daten irgendwie aufzuheben, aber teuer ist es immer noch, aber nicht mehr sehr teuer.
Und ja, warum will man sich mit vielen Daten beschäftigen? Weil man es kann, ja wahrscheinlich.
Und weil das sich so anfühlt, als wenn man ganz viele Daten über alles Mögliche hat, dass man dann ganz viel Macht hätte.
Man kann das für alles Mögliche verwenden, ganz bestimmt.
Da muss man nur drauf kommen, was das hier genau ist und wie man aus den Daten irgendwie einen Sinn machen kann.
Jetzt weiß ich nicht, ob man das sehen kann. Das ist so eine Sammlung von Korrelationen.
Korrelationen ist, wenn so wie da, das hier so läuft.
Hier steht für jeweils 5 Milliarden US-Ausgaben für die in Forschung, Weltraumtechnik und überhaupt Technologie gibt es jeweils 2000 mehr Todesfälle durch Erhängen.
Und wie man sehen kann, das hat eine Korrelation von 99,79. Also ein Cloud-Provider wäre glücklich, wenn er das irgendwo da anbringen könnte.
Aber das hat natürlich, obwohl das so aussieht, als wäre das ganz zusammenhängt.
Also man kennt halt die Richtung jetzt nicht.
Muss man erst Leute dazu bringen, sich zu erhängen, damit die US-Regierung mehr Geld für die Forschung ausgibt.
Oder es ist andersrum, wenn die mehr ausgeben, dann erhängen sich mehr.
Das kann man halt da nicht erkennen. Das ist auf Dauer so.
Und im Grunde macht das überhaupt keinen Sinn.
Das ist einfach nur das Beispiel, um zu sagen, Daten zu haben allein.
Ja, ist schön. Gibt das Gefühl, man hätte es gemacht, aber ja.
Was ist denn überhaupt Big Data? Das ist halt so ein Schlagwort.
Big Data ist Daten, die zu viel sind, um gerade das damit zu machen, was man machen will, weil es irgendwie nicht geht.
Platte ist zu klein, Speicher ist zu klein, die Werkzeuge taugen gerade nicht mehr.
Und das heißt, das wird jeweils vor Ort definiert.
Für die einen sind 20 Megabyte Daten in einem Excel-Scheet zu groß.
Für die anderen sind ein paar Terabyte in einem File zu groß.
Das weiß man halt gerade nicht.
Das kommt wirklich sehr auf die örtlichen Gegebenheiten an.
Und das ändert sich halt auch immer.
Das wird also, dadurch es so schön definiert ist, wird es immer Big Data geben.
Presenters
Sören Laird Sörries
Zugänglich über
Offener Zugang
Dauer
00:25:48 Min
Aufnahmedatum
2020-03-06
Hochgeladen am
2020-03-06 18:07:45
Sprache
de-DE
Statistik war noch nie jederHackers Sache.
In den letzten Jahern wurde jedoch Bedarf für "Data Science" aufgetan.
Das ist die zuvor noch nicht dagewesene Schnittmenge aus Informatik bzw. Hacking und dazu statistisch relevant aussehenden Grafiken und den sogenannten "Big Data".
Letzteres sind Datenmengen, die etwas größer sind, als man es bisher gewohnt war.
Mit Perl und mit Raku.