4 - VL_2_2_ExpectationMaximization [ID:29924]

50 von 559 angezeigt

Hallo, wir haben letztes mal über den K-Means Algorithmus gesprochen und heute werden wir uns

eine Verallgemeinerung anschauen, die ein paar der Schwächen, die K-Means hat, die wir gleich

sehen werden, beheben kann. K-Means, das sind jetzt hier vier beispielhafte RUNs von dem K-Means

Algorithmus. Fangen wir einfach mal mit dem oberen Beispiel oben links an. Also ursprünglich habe ich

hier zwei Cluster erstellt, die sollten eigentlich so aussehen, dass hier einer ist und hier einer ist.

Das sieht man visuell auch ganz gut. Aber aufgrund von dieser lang gezogenen Form dieser Cluster macht

hier K-Means so eine Einteilung, was nicht das ist, was man visuell beachten würde. Ähnlich hat man es auch hier.

Das sind jetzt hier wieder zwei lang gestreckte Cluster. Auch hier sollte es eigentlich so, so hier geteilt

werden. Auch eher eine andere Trennlinie gewählt. Und hier auch ein etwas komplizierterer Fall, wie dem K-Means

oft nicht ganz gut klar kommt. Hier ist ein etwas größerer Cluster und hier ist ein recht nahegelegener

und kleinerer Cluster. Auch hier hat K-Means nicht gut funktioniert und hier ist eine besonders

schwierige Situation. Was hier eigentlich gemeint war oder wie sich die Daten erzeugt haben war, ein Cluster ist hier und hier ist eine Region eines

zweiten Clusters, der den ersten Cluster überlappt und quasi sich in diesem Cluster befindet. Auch hier könnte man visuell

hinschauen und sehen, dass sich diese Datenpunkte hier in diesem Punkt hier in der Mitte deutlich mehr

häufen und da würde man vermutlich auch als Mensch sagen, oh da ist vielleicht etwas besonders, was man als Cluster

herausheben müsste und K-Means kann in allen diesen Fällen nicht besonders gut diese Kategorien trennen.

Und der Grund dafür ist im Wesentlichen, dass K-Means nur ein, man sagt jetzt so, Ad-hoc-Algorithmus ist, also einer, den man mal eben so

hinschreibt. Der funktioniert in manchen Beispielfällen ganz in Ordnung, aber eben manchmal auch nicht und wir würden gerne etwas

konstruieren oder einen Algorithmus designen, der robuster ist und der klar das Problem lösen kann.

Dazu machen wir jetzt eine andere Philosophie zu den Daten, die wir haben. Wir sagen jetzt, dass die Daten nicht einfach nur etwas ist, was

gegeben ist, sondern dass dahinter eigentlich eine unbekannte Wahrscheinlichkeitsverteilung steckt.

Wir würden gerne diese Wahrscheinlichkeitsverteilung erraten und wenn diese Wahrscheinlichkeitsverteilung Komponenten hat oder Kategorien, dann sind das unsere Cluster.

Das heißt, wenn wir die Wahrscheinlichkeitsverteilung inferieren können, bekommen wir auch unsere Cluster und das soll unser nächster Algorithmus tun.

Das ist jetzt ein bisschen viel Notation, das wird aber hoffentlich gleich klar werden.

Wir behaupten jetzt, dass die Daten erzeugt wurden durch ein sogenanntes Gaussian Mixture Model.

Was hier genau steht, ist vielleicht gar nicht so spannend, was gemeint ist, diese X hier sollen die Daten sein.

Die Daten werden erzeugt durch eine Wahrscheinlichkeitsverteilung, die von Parametern abhängt.

Diese Parameter sind P, Mi und Sigma. Wir werden gleich sehen, was Bedeutung für diese Parameter ist.

In allen Dimensionen kann man das ganz schön darstellen.

Diese Gaussverteilung kennen Sie in einer Dimension vermutlich noch aus der Schule.

Ich schreibe das jetzt mal an diesem Punkt hin.

Die Dichte einer Normalverteilung mit Mittelwert Sigma und ich mache jetzt in allen Dimensionen Sigma Quadrat.

Das ist eins durch die Wurzel 2 Pi Sigma Quadrat e hoch Minus x Minus Mi Quadrat durch 2 Sigma Quadrat.

Das gibt diese klassische Gaufsische Glockenkurve, die man sehr oft sieht.

Wir behaupten jetzt, dass die Art und Weise, wie die Daten generiert wurden, auf einer Mischung von verschiedenen Gaußverteilungen beruht.

Das ist hier diese grüne Kohle.

Wir haben hier drei verschiedene Komponenten.

Eine Gaußverteilung hier, eine hier, eine schmale und dann eine breitere Gaußverteilung, die aber überlappt mit dieser anderen Gaußverteilung.

Das heißt, wir haben hier drei verschiedene Mittelwerte.

Das hier ist mal wegen Mi 1, das ist Mi 2 und hier ist Mi 3.

Und dieser Abstand hier, dieser Standardabweichung hier, das ist Sigma 1.

Hier ist Sigma 2 und dieser Größe hier, das ist Sigma 3.

Und diese Pis, das ist die relative Höhe dieser Hubbel.

Also wenn jetzt Pi 1 kleiner wäre, dann wäre dieser Hubbel eben vielleicht nur so groß oder größer.

Das heißt, es ist die relative Gewichtung, die man diesen einzelnen Hügeln sucht.

Also das ist einfach nur eine reine Hypothese, die man an die Daten stellt.

Das mag falsch sein in einzelnen Fällen oder auch sehr oft mag das falsch sein.

Aber wir tun jetzt so, als wären die Daten entstanden durch das Stichprobenziehen aus so einer Mischverteilung von Gauß zu was Größen.

Und das hier, hier ist es wieder gejittert.

Das heißt, diese Achse ist irrelevant.

Teil einer Videoserie :

Einführung in die mathematische Datenanalyse

Presenters

Dr. Philipp Wacker

Zugänglich über

Offener Zugang

Dauer

00:59:00 Min

Aufnahmedatum

2021-02-23

Hochgeladen am

2021-02-23 17:46:36

Sprache

de-DE

Einbetten

Wordpress FAU Plugin

 https://www.fau.tv/clip/id/29924

iFrame

<iframe src="https://api.video.uni-erlangen.de/services/oembed/?url=https://www.fau.tv/clip/id/29924&format=iframe&maxwidth=1280&maxheight=720" width="1280" height="720"seamless allowfullscreen style="border: 0; padding: 0; margin: 0;overflow: hidden;"></iframe>

Herunterladen

Video

Per RSS abonnieren