7 - Informatische Werkzeuge in den Geistes- und Sozialwissenschaften I [ID:9856]
50 von 544 angezeigt

Gut, vielleicht, wir werden das dann so machen, dass ich Sie bitte, sich alle die Slides zu

schnappen und irgendwie so zu projizieren, dass jeder auf irgendeinen Computer gucken

kann, der Slides hat. Okay? Und dann werde ich bemühen zu sagen, weiter wenn es weiter

geht, irgendwann ab. Wir müssen das halt irgendwie koordinieren. Right, so, ich will

mir auch was sehen. Okay, anfangen möchte ich mit dieser Slide 2.1.3 Computing with Strings.

Und wir haben letzte Woche uns reguläre Ausdrücke angeguckt und reguläre Ausdrücke sind einerseits

ein ganz typisches Beispiel für wie Tools in der Informatik funktionieren und andererseits

ein wirklich nützliches Tool. Sie sind auch schwierig, also auch unter Informatikern gelten

reguläre Ausdrücke als etwas, was einige Leute können, die findet man dann komisch,

weil sie das können und man beneidet sie auch so ein bisschen, weil man mit denen wirklich

nützliche Sachen machen kann. Und deswegen dachte ich mir, zeige ich sie Ihnen mal. Typische

Geschichte ist, dass man irgendwo einen großen String hat oder eine Datei oder so etwas und

man will irgendwelche Muster da drin finden und auf diesen Mustern irgendetwas tun. Typische

Geschichte ist zum Beispiel alle E-Mail Adressen raussuchen aus irgendeinem großen Textkorpus

oder alle Daten raussuchen oder aber stellen Sie sich vor, Sie wären bei der CIA und können

alle E-Mails mitlesen. Dann würden Sie das natürlich, weil es pro Minute irgendwie 500.000

E-Mails gibt, möchten Sie die nicht alle von Hand lesen, sondern Sie wollen irgendwelche

Schlüsselwörter rausfinden. Uzi, Kalashnikov, Bombe, solche Sachen alle. Man kann glaube

ich ja. Das wird noch schlimmer. Okay. Ein Wunder der Technik. Wollen wir Sie auch mal

erleuchten? Sehr gut. Gut. So. Ja. Allerlei solche Dinge sind das, dass man auf einem großen

Text kleine Regionen, auf denen man weiterhin was tun will, raushaben will. Und wenn man

das will, hat man das Problem, dass man diese Regionen beschreiben will. Man kann das entweder

machen, indem man sagt dies oder dies oder dies oder dies oder dies oder dies. Aber bei

jeder möglichen E-Mail, wenn man die alle aufzählen will, ist man unendlich lange

beschäftigt. Das heißt, was man braucht, ist eigentlich eine Sprache, in der man über

solche Textstellen reden kann. Und genau das sind reguläre Ausdrücke. Eine Sprache, in

der man über Textstellen reden kann, indem man die beschreiben kann. Und zwar mit möglichst

einfachen Mitteln eine möglichst große Menge an Textstellen. Und wenn man das macht und

ein bisschen theoretische Informatik kann und sich vor kryptischen Zeichen nicht fürchtet,

dann kommt sowas wie reguläre Ausdrücke raus. Okay? Das ist sozusagen Hintergrund der ganzen

Geschichte. Wie jede andere Sprache kann man reguläre Ausdrücke, das ist nur eine Sprache

wie Französisch, Englisch oder so etwas, kann man die lernen, indem man die Vokabeln

lernt und die Kombinationen lernt. Jetzt gehen wir mal auf die nächste Seite, also 69, wenn

ich das richtig sehe, also bei mir jedenfalls. Da steht das Lexikon der Sprache reguläre

Ausdrücke. Um genau zu sein, ein Teil des Lexikons der Sprache reguläre Ausdrücke.

Okay, wir sehen solche Dinge, so Worte wie Punkt. Punkt ist ein Wort, eine Beschreibung,

eine einzelne Beschreibung von gewissen Strings und Punkt beschreibt jeden String, der aus

einem, aus genau einem, aber beliebigen Buchstaben besteht. Wobei Buchstaben auch Zahlen heißen

und alles, was ein Unicode Buchstabe ist. Okay, wir wissen, wir haben da etwa 100.000

vor. Das heißt, dieser Punkt steht für einen aus 100.000 Buchstaben, aber nicht für einen

Zeilenumbruch. Okay? Dieses Wort in der Sprache hat sich als besonders nützlich rausgestellt

und deswegen ist es in der Sprache. Genauso wie das Deutsche ein Wort für Hund hat, weil

man eben über Hunde reden will, und zwar über beliebige Hunde. So große Hunde, so große

Docken mit Lockenhahn und all sowas. Genauso wollen wir hier ein Wort haben, was über

Buchstaben redet. Und es gibt noch mehr Worte in dieser Sprache. Neben dem Punkt gibt es

noch ein Wort für Stringanfang. Genau wie wir außerdem im Deutschen das Wort Katze

haben. Und dann haben wir noch andere Worte, zum Beispiel Dollar, damit beschreiben wir

das Ende eines Strings. Und genauso wie wir im Deutschen Wörter zusammenpacken, zu setzen,

um kompliziertere Dinge zu beschreiben, machen wir das in Regular Expressions auch. Punkt

Dollar beschreibt irgendeinen Buchstaben am Ende des Strings. Hütchenpunkt Dollar

Zugänglich über

Offener Zugang

Dauer

01:22:11 Min

Aufnahmedatum

2018-12-06

Hochgeladen am

2018-12-08 12:10:35

Sprache

de-DE

Die Zielvorgabe dieser Vorlesung ist es, Studenten einen Überberblick über die informatischen Werkzeuge für die Geistes- und Sozialwissenschaften zu geben, sowie intuitiv ihre Arbeitsweisen und Prinzipien zu erklären. Studenten sollen für die aufkommenden „Digitalen Geistesund Sozialwissenschaften“ ermächtigt werden. Im Gegensatz zu normalen Informatikvorlesungen, die primär die mathematischen Grundlagen und Berechnungskonzepte einführen, die langfristig notwendig sind, die Informatik voll zu verstehen, wollen wir in dieser Vorlesung Methoden und Werkzeuge einführen, die kurzfristig – am besten unmittelbar – nützlich werden und so zu motivierenden Erfolgserlebnissen führen. Damit wollen wir den „Programmierschock“ (das Gehirn hört auf zu arbeiten sobald von Programmen die Rede ist) verhindern, der so häufig bei Geistes- und Sozialwissenschaftlern auftritt.

Tags

Python Speicher HTML
Einbetten
Wordpress FAU Plugin
iFrame
Teilen