Die Idee dabei ist, dass man Dokumente als Bäume beguckt.
Dann ist es häufig gut, wenn wir einfach Subbäume über ihre Pfade charakterisieren.
Dafür gibt es eine Sprache, die wird von Python unterstützt.
Wir können sehr häufig, wenn wir einen Pfad angeben, uns alle die Dinge, die unter dieser Adresse sind, geben lassen.
Dann können wir mit denen was anfangen.
Das ist eine ganz gute Art und Weise, mit großen Dokumenten umzugehen.
Das Beispiel war so etwas wie Screenstraping.
Wir sind in einer riesigen Tabelle, ein unglaubliches Gebirge von HTML.
Ich glaube, wir sollten das mal angucken.
Da ist es.
Da haben wir eine große Tabelle.
Wenn wir uns angucken, wie das aussieht, dann sehen Sie, das ist die Tabelle.
Das ist ein bisschen scary.
Aber das Gute, wir sehen das auch schon hier, das hat eine sehr reguläre Struktur.
Das hat den großen Vorteil, dass wir immer zugehörige, korrespondierende Sachen,
nämlich wir sehen überall, wo ist denn, da, Labella Principessa oder so etwas,
ist tatsächlich immer an der selben Stelle.
Das heißt, das hat immer den selben Pfad.
Das heißt, wir können einfach, das war noch nicht, was ich wollte.
Mein Muscle Memory hilft mir gerade nicht.
Wir können uns angucken, wo ist das denn über den Inspektor.
Der Inspektor sagt uns sogar, wenn wir ein Element hier angucken, was ist denn der Pfad.
Da unten steht es.
Man kann auch den Pfad, wenn man rechts klickt, einfach rauskopieren.
Dann kann man einfach sich den angucken.
Der ist im Moment hier ein bisschen scheußlich.
Aber den kann man ein bisschen versäubern.
Verallgemeinern.
Und dann kriegt man tatsächlich, wenn man einfach so was sagt, wir machen leo.html,
da haben wir uns die Website hin gespeichert und wir lesen das in eine Baumdatensstruktur ein
und dann sagen wir einfach tree.xpath, dann leicht vereinfachten xpath
und das gibt mir dann die Liste à la Titel.
Diese Methode hat den großen Vorteil, dass wir sie immer wieder laufen lassen können.
Und wenn nicht irgendjemand auf die Idee kommt, die Tabelle noch hübscher zu machen,
das würde den Pfad kaputt machen, können wir das immer wieder verwenden.
Wenn irgendjemand ein neues Bild von Leonardo da Vinci finden sollte
oder irgendjemand sagt, das ist nicht von Leonardo da Vinci, das gehört nicht auf die Liste,
dann haben wir das.
Das ist was hinter in Titles.
Wenn sich die Struktur ändert, wenn man also vor den Bildern noch eine Spalte angibt
und die durchnummeriert, dann wird dieses TD, was die Zelle ist,
das ist dann nicht mehr die zweite Zelle, sondern dann die dritte Zelle,
dann geht es kaputt.
Das kann man aber typischerweise relativ gut reparieren.
Das ist nicht intelligent, genau wie unsere Programme nicht intelligent sind,
sondern die tun genau das, was man ihnen sagt.
Und wenn das Programm ausgelegt war für eine vorherige Version,
dann wird es unter Umständen nicht mehr klappen.
Aber es tut es effizient.
Und wenn sich die Struktur nicht ändert, also wenn zum Beispiel irgendjemand das Ding umsortiert
Presenters
Zugänglich über
Offener Zugang
Dauer
01:30:55 Min
Aufnahmedatum
2025-01-09
Hochgeladen am
2025-01-10 12:19:07
Sprache
de-DE