Einen schönen guten Morgen! Wir stecken ja jetzt gerade im HITS-Algorithmus. Wir hatten beim letzten
Mal uns hier angeschaut, wie eine gute Ausgangsmenge, auf der man relevante Webseiten für die
Suchanfrage findet, wie also so eine Ausgangssache aussehen sollte. Wir haben uns also überlegt,
wie man einen Grafen, den hatten wir S-Sigma genannt, das sollte also der Basis-Graf sein,
ein Graf der Sigma konstruiert aus Webseiten, der halt eine Reihe von Eigenschaften besitzen
sollte. Und so wie wir es gemacht haben, hoffen wir auch, dass wir wirklich viel davon erreicht
haben. Wir wollen halt, dass die Basis relativ klein ist im Verhältnis zum Gesamtgrafen des
World Wide Web. Dann als Zweites soll das viele relevante Seiten enthalten.
Aber relevant heißt noch nicht, dass es wirklich die Antwort enthält. relevant,
es gibt viele Sachen, die sind relevant, aber nicht besonders aussagekräftig, ganz genau zu
unserer Anfrage. Deswegen haben wir ja noch als Drittes mit dabei, dass unsere Basis viele
Seiten mit höchster Autorität enthält. Also diesen Grafen, den haben wir beim letzten Mal
konstruiert. Wir haben mit so einer textbasierten Suche angefangen, haben dann von einer Seite,
die hatten wir dann Wurzelmenge genannt, wenn wir also eine Seite in dieser Wurzelmenge haben,
dann hoffen wir, wenn es denn nicht eine Seite mit hoher Relevanz ist, dann ist es vielleicht
aber immer noch ein guter Hub. Hub, das ist ja eben eine Autorität für Autoritäten. Deswegen
haben wir gesagt, wenn ein guter Hub ist, dann zeigt er unter Umständen eben auf Webseiten,
die hohe Autorität sind, die dann außerhalb von unserer Wurzelmenge liegen und die haben wir dann
ja mit dazugenommen. Und was wir gemacht haben, wenn eine Seite eine gute Autorität ist und schon
in unserer Wurzelmenge mit liegt, dann kann es ja sein, dass wir noch Hubs übersehen haben,
die außerhalb liegen. Deswegen haben wir auch noch mal die Vorgänger mit dazugenommen. Und das hat
mich halt beschränkt, weil es natürlich für eine einzelne Webseite sehr viele Vorgänger geben kann.
Also die Situation stellt sich halt so dar, wenn Pe jetzt eine Webseite ist, also eine
Beige, dann hatten wir eine rechte Niere genommen, das ist halt die Nachfolgemenge von der Seite Pe,
das sind dann die Webseiten, auf die Pe zeigt. Und wir hatten dann halt die Vorgängermenge genommen,
bezeichnet mit Gamma minus von Pe, das sind die, die auf das Pe zeigen. Und wenn das hier 10 Millionen
sind, dann wird das halt irgendwie auf eine feste Zahl beschränkt von den 10 Millionen Vorgängern,
nimmt man dann aber nur 500 oder so. Wir wollen ja immer noch, dass die Menge relativ klein ist.
Also wenn ich jetzt alle Vorgänger einer Seite mit dazunehme, werde ich sehr schnell sehr groß.
Und dann hatten wir halt noch so diese Heuristiken gemacht, dass Navigationslinks und so was nicht
ins Kalkül mit einbezogen werden. So und das, was wir jetzt machen müssen, ist eben die Seiten mit
hoher Autorität in der Basismenge identifizieren. Noch haben wir einfach nur einen Grafen, sprich
die Webseiten und die Links zwischen den Webseiten. Und wie finden wir jetzt da drin die Seiten mit
großer Autorität? Nun, das was jetzt da abläuft, ist eine Variante von dem, was man halt ein Random
Walk nennt. Random Walk, das ist einfach, man folgt den Links. Und das macht man aber nicht
irgendwie, sondern das macht man schon durchaus schlau. Das ist eben, dass da jetzt wirklich was
ausgerechnet wird. Also es ist halt nicht so.
Eine Seite mit hoher Autorität sollte nicht nur einen großen Eingangsgrad haben, klar,
wenn jemand eine große Autorität ist, dann sagt jeder, wenn man jemanden fragt, wer ist der Experte
dafür, dann sollten halt viele mal auf den Experten fragen. Mein Beispiel vom letzten Mal war das mit
dem Studien-Service-Center. Wenn Sie eine Frage haben und damit zu mir kommen, dann sage ich,
weiß ich auch nicht, aber gehen Sie mal ins Studien-Service-Center. Das ist dann halt,
dass ich einen Link gelegt habe auf das Studien-Service-Center. Und dann sagen Sie,
den traue ich nicht, gehe ich noch mal zu einem anderen Prof und frage den auch. Und dann sagt
der auch wieder, habe ich keine Ahnung von, aber gehen Sie mal zum Studien-Service-Center. Also da
ist dann ein hoher Grad, der dann eben auf das Studien-Service-Center zeigt. Aber das,
was ich gerade noch auch gesagt habe, was ich noch, ich habe es noch nicht gesagt,
habe ich schon so angedeutet. Wir haben jetzt hier an der Uni mehrere Studien-Service-Zentren. Es
gibt ja das der Technischen Fakultät, dann gibt es das für die Informatik, dann gibt es eins für
Medizintechnik. Und hohe Autoritäten haben alle die. Und wenn Sie jetzt mich sozusagen als einen
Presenters
Zugänglich über
Offener Zugang
Dauer
01:15:32 Min
Aufnahmedatum
2013-05-14
Hochgeladen am
2019-04-29 04:39:03
Sprache
de-DE
Unter Organic Computing (OC) versteht man den Entwurf und den Einsatz von selbst-organisierenden Systemen, die sich den jeweiligen Umgebungsbedürfnissen dynamisch anpassen. Diese Systeme zeichnen sich dadurch aus, dass sie die sog. Self-*-Eigenschaft besitzen, d.h. sie sind selbst-konfigurierend, selbst-optimierend, selbst-heilend, selbst-schützend, selbst-erklärend, ...
Als Vorbild für solche technischen Systeme werden Strukturen und Methoden biologischer und anderer natürlicher Systeme gewählt.
Literatur:
- Ch. Müller-Schloer, Ch. von der Malsburg, R. P. Würt. Organic Computing. Informatik-Spektrum, Band 27, Nummer 4, S. 332-336. (LINK)
-
I. C. Trelea. The particle swarm optimization algorithm: convergence analysis and parameter selection. Information Processing Letters 85 (2003) 317-325. (LINK)
-
J. M. Kleinberg. Authoritative sources in a hyperlinked environment. Journal of the ACM 46 (1999) 604-632. (LINK)
-
M. Dorigo. V. Maniezzo. A Colorni. Ant system: an autocatalytic optimizing process. Technical Report 91-016, Politecnico di Milano, 1991. (LINK)
-
A. Badr. A. Fahmy. A proof of convergence for Ant algorithms. Information Sciences 160 (2004) 267-279.
-
M. Clerc. J. Kennedy. The particle swarm - Explosion, stability, and convergence in a multidimensional complex space. IEEE Transactions on Evolutionary Computation 8 (2002) 58-73.