Hallo, wir haben letztes mal über den K-Means Algorithmus gesprochen und heute werden wir uns
eine Verallgemeinerung anschauen, die ein paar der Schwächen, die K-Means hat, die wir gleich
sehen werden, beheben kann. K-Means, das sind jetzt hier vier beispielhafte RUNs von dem K-Means
Algorithmus. Fangen wir einfach mal mit dem oberen Beispiel oben links an. Also ursprünglich habe ich
hier zwei Cluster erstellt, die sollten eigentlich so aussehen, dass hier einer ist und hier einer ist.
Das sieht man visuell auch ganz gut. Aber aufgrund von dieser lang gezogenen Form dieser Cluster macht
hier K-Means so eine Einteilung, was nicht das ist, was man visuell beachten würde. Ähnlich hat man es auch hier.
Das sind jetzt hier wieder zwei lang gestreckte Cluster. Auch hier sollte es eigentlich so, so hier geteilt
werden. Auch eher eine andere Trennlinie gewählt. Und hier auch ein etwas komplizierterer Fall, wie dem K-Means
oft nicht ganz gut klar kommt. Hier ist ein etwas größerer Cluster und hier ist ein recht nahegelegener
und kleinerer Cluster. Auch hier hat K-Means nicht gut funktioniert und hier ist eine besonders
schwierige Situation. Was hier eigentlich gemeint war oder wie sich die Daten erzeugt haben war, ein Cluster ist hier und hier ist eine Region eines
zweiten Clusters, der den ersten Cluster überlappt und quasi sich in diesem Cluster befindet. Auch hier könnte man visuell
hinschauen und sehen, dass sich diese Datenpunkte hier in diesem Punkt hier in der Mitte deutlich mehr
häufen und da würde man vermutlich auch als Mensch sagen, oh da ist vielleicht etwas besonders, was man als Cluster
herausheben müsste und K-Means kann in allen diesen Fällen nicht besonders gut diese Kategorien trennen.
Und der Grund dafür ist im Wesentlichen, dass K-Means nur ein, man sagt jetzt so, Ad-hoc-Algorithmus ist, also einer, den man mal eben so
hinschreibt. Der funktioniert in manchen Beispielfällen ganz in Ordnung, aber eben manchmal auch nicht und wir würden gerne etwas
konstruieren oder einen Algorithmus designen, der robuster ist und der klar das Problem lösen kann.
Dazu machen wir jetzt eine andere Philosophie zu den Daten, die wir haben. Wir sagen jetzt, dass die Daten nicht einfach nur etwas ist, was
gegeben ist, sondern dass dahinter eigentlich eine unbekannte Wahrscheinlichkeitsverteilung steckt.
Wir würden gerne diese Wahrscheinlichkeitsverteilung erraten und wenn diese Wahrscheinlichkeitsverteilung Komponenten hat oder Kategorien, dann sind das unsere Cluster.
Das heißt, wenn wir die Wahrscheinlichkeitsverteilung inferieren können, bekommen wir auch unsere Cluster und das soll unser nächster Algorithmus tun.
Das ist jetzt ein bisschen viel Notation, das wird aber hoffentlich gleich klar werden.
Wir behaupten jetzt, dass die Daten erzeugt wurden durch ein sogenanntes Gaussian Mixture Model.
Was hier genau steht, ist vielleicht gar nicht so spannend, was gemeint ist, diese X hier sollen die Daten sein.
Die Daten werden erzeugt durch eine Wahrscheinlichkeitsverteilung, die von Parametern abhängt.
Diese Parameter sind P, Mi und Sigma. Wir werden gleich sehen, was Bedeutung für diese Parameter ist.
In allen Dimensionen kann man das ganz schön darstellen.
Diese Gaussverteilung kennen Sie in einer Dimension vermutlich noch aus der Schule.
Ich schreibe das jetzt mal an diesem Punkt hin.
Die Dichte einer Normalverteilung mit Mittelwert Sigma und ich mache jetzt in allen Dimensionen Sigma Quadrat.
Das ist eins durch die Wurzel 2 Pi Sigma Quadrat e hoch Minus x Minus Mi Quadrat durch 2 Sigma Quadrat.
Das gibt diese klassische Gaufsische Glockenkurve, die man sehr oft sieht.
Wir behaupten jetzt, dass die Art und Weise, wie die Daten generiert wurden, auf einer Mischung von verschiedenen Gaußverteilungen beruht.
Das ist hier diese grüne Kohle.
Wir haben hier drei verschiedene Komponenten.
Eine Gaußverteilung hier, eine hier, eine schmale und dann eine breitere Gaußverteilung, die aber überlappt mit dieser anderen Gaußverteilung.
Das heißt, wir haben hier drei verschiedene Mittelwerte.
Das hier ist mal wegen Mi 1, das ist Mi 2 und hier ist Mi 3.
Und dieser Abstand hier, dieser Standardabweichung hier, das ist Sigma 1.
Hier ist Sigma 2 und dieser Größe hier, das ist Sigma 3.
Und diese Pis, das ist die relative Höhe dieser Hubbel.
Also wenn jetzt Pi 1 kleiner wäre, dann wäre dieser Hubbel eben vielleicht nur so groß oder größer.
Das heißt, es ist die relative Gewichtung, die man diesen einzelnen Hügeln sucht.
Also das ist einfach nur eine reine Hypothese, die man an die Daten stellt.
Das mag falsch sein in einzelnen Fällen oder auch sehr oft mag das falsch sein.
Aber wir tun jetzt so, als wären die Daten entstanden durch das Stichprobenziehen aus so einer Mischverteilung von Gauß zu was Größen.
Und das hier, hier ist es wieder gejittert.
Das heißt, diese Achse ist irrelevant.
Presenters
Zugänglich über
Offener Zugang
Dauer
00:59:00 Min
Aufnahmedatum
2021-02-23
Hochgeladen am
2021-02-23 17:46:36
Sprache
de-DE