Gut, vielleicht, wir werden das dann so machen, dass ich Sie bitte, sich alle die Slides zu
schnappen und irgendwie so zu projizieren, dass jeder auf irgendeinen Computer gucken
kann, der Slides hat. Okay? Und dann werde ich bemühen zu sagen, weiter wenn es weiter
geht, irgendwann ab. Wir müssen das halt irgendwie koordinieren. Right, so, ich will
mir auch was sehen. Okay, anfangen möchte ich mit dieser Slide 2.1.3 Computing with Strings.
Und wir haben letzte Woche uns reguläre Ausdrücke angeguckt und reguläre Ausdrücke sind einerseits
ein ganz typisches Beispiel für wie Tools in der Informatik funktionieren und andererseits
ein wirklich nützliches Tool. Sie sind auch schwierig, also auch unter Informatikern gelten
reguläre Ausdrücke als etwas, was einige Leute können, die findet man dann komisch,
weil sie das können und man beneidet sie auch so ein bisschen, weil man mit denen wirklich
nützliche Sachen machen kann. Und deswegen dachte ich mir, zeige ich sie Ihnen mal. Typische
Geschichte ist, dass man irgendwo einen großen String hat oder eine Datei oder so etwas und
man will irgendwelche Muster da drin finden und auf diesen Mustern irgendetwas tun. Typische
Geschichte ist zum Beispiel alle E-Mail Adressen raussuchen aus irgendeinem großen Textkorpus
oder alle Daten raussuchen oder aber stellen Sie sich vor, Sie wären bei der CIA und können
alle E-Mails mitlesen. Dann würden Sie das natürlich, weil es pro Minute irgendwie 500.000
E-Mails gibt, möchten Sie die nicht alle von Hand lesen, sondern Sie wollen irgendwelche
Schlüsselwörter rausfinden. Uzi, Kalashnikov, Bombe, solche Sachen alle. Man kann glaube
ich ja. Das wird noch schlimmer. Okay. Ein Wunder der Technik. Wollen wir Sie auch mal
erleuchten? Sehr gut. Gut. So. Ja. Allerlei solche Dinge sind das, dass man auf einem großen
Text kleine Regionen, auf denen man weiterhin was tun will, raushaben will. Und wenn man
das will, hat man das Problem, dass man diese Regionen beschreiben will. Man kann das entweder
machen, indem man sagt dies oder dies oder dies oder dies oder dies oder dies. Aber bei
jeder möglichen E-Mail, wenn man die alle aufzählen will, ist man unendlich lange
beschäftigt. Das heißt, was man braucht, ist eigentlich eine Sprache, in der man über
solche Textstellen reden kann. Und genau das sind reguläre Ausdrücke. Eine Sprache, in
der man über Textstellen reden kann, indem man die beschreiben kann. Und zwar mit möglichst
einfachen Mitteln eine möglichst große Menge an Textstellen. Und wenn man das macht und
ein bisschen theoretische Informatik kann und sich vor kryptischen Zeichen nicht fürchtet,
dann kommt sowas wie reguläre Ausdrücke raus. Okay? Das ist sozusagen Hintergrund der ganzen
Geschichte. Wie jede andere Sprache kann man reguläre Ausdrücke, das ist nur eine Sprache
wie Französisch, Englisch oder so etwas, kann man die lernen, indem man die Vokabeln
lernt und die Kombinationen lernt. Jetzt gehen wir mal auf die nächste Seite, also 69, wenn
ich das richtig sehe, also bei mir jedenfalls. Da steht das Lexikon der Sprache reguläre
Ausdrücke. Um genau zu sein, ein Teil des Lexikons der Sprache reguläre Ausdrücke.
Okay, wir sehen solche Dinge, so Worte wie Punkt. Punkt ist ein Wort, eine Beschreibung,
eine einzelne Beschreibung von gewissen Strings und Punkt beschreibt jeden String, der aus
einem, aus genau einem, aber beliebigen Buchstaben besteht. Wobei Buchstaben auch Zahlen heißen
und alles, was ein Unicode Buchstabe ist. Okay, wir wissen, wir haben da etwa 100.000
vor. Das heißt, dieser Punkt steht für einen aus 100.000 Buchstaben, aber nicht für einen
Zeilenumbruch. Okay? Dieses Wort in der Sprache hat sich als besonders nützlich rausgestellt
und deswegen ist es in der Sprache. Genauso wie das Deutsche ein Wort für Hund hat, weil
man eben über Hunde reden will, und zwar über beliebige Hunde. So große Hunde, so große
Docken mit Lockenhahn und all sowas. Genauso wollen wir hier ein Wort haben, was über
Buchstaben redet. Und es gibt noch mehr Worte in dieser Sprache. Neben dem Punkt gibt es
noch ein Wort für Stringanfang. Genau wie wir außerdem im Deutschen das Wort Katze
haben. Und dann haben wir noch andere Worte, zum Beispiel Dollar, damit beschreiben wir
das Ende eines Strings. Und genauso wie wir im Deutschen Wörter zusammenpacken, zu setzen,
um kompliziertere Dinge zu beschreiben, machen wir das in Regular Expressions auch. Punkt
Dollar beschreibt irgendeinen Buchstaben am Ende des Strings. Hütchenpunkt Dollar
Presenters
Zugänglich über
Offener Zugang
Dauer
01:22:11 Min
Aufnahmedatum
2018-12-06
Hochgeladen am
2018-12-08 12:10:35
Sprache
de-DE
Die Zielvorgabe dieser Vorlesung ist es, Studenten einen Überberblick über die informatischen Werkzeuge für die Geistes- und Sozialwissenschaften zu geben, sowie intuitiv ihre Arbeitsweisen und Prinzipien zu erklären. Studenten sollen für die aufkommenden „Digitalen Geistesund Sozialwissenschaften“ ermächtigt werden. Im Gegensatz zu normalen Informatikvorlesungen, die primär die mathematischen Grundlagen und Berechnungskonzepte einführen, die langfristig notwendig sind, die Informatik voll zu verstehen, wollen wir in dieser Vorlesung Methoden und Werkzeuge einführen, die kurzfristig – am besten unmittelbar – nützlich werden und so zu motivierenden Erfolgserlebnissen führen. Damit wollen wir den „Programmierschock“ (das Gehirn hört auf zu arbeiten sobald von Programmen die Rede ist) verhindern, der so häufig bei Geistes- und Sozialwissenschaftlern auftritt.