Dieser Audiobeitrag wird von der Universität Erlangen-Nürnberg präsentiert.
Wir sind im letzten Teil der Vorlesung, wo es um Machine Learning geht und das Problem,
was wir hier lösen, ist gegeben an Hypothesenraum H, sprich also eine Menge von Funktionen und
ein Hypothesenraum, in dem es eine Funktion, eine Echtfunktion F gibt. Echtfunktion ist
einfach eine Menge von Input-Output-Paren, also eine Menge von Beispielen und wir wollen zu einer
Situation möglichst nah mit einer Hypothese H, die im Hypothesenraum ist, möglichst nah an
diese Echtfunktion ranzukommen. Die Echtfunktion muss nicht im Hypothesenraum sein, wenn sie es
ist, nennen wir das Problem realisierbar und wenn nicht, nennen wir es nicht realisierbar und in
dem Fall muss diese beste Hypothese, muss das natürlich möglichst gut annähern. Das ist das
Problem in voller Abstraktheit, dass wir lösen beim Lärm, wir wollen irgendeine Funktion,
die wir nur in gewissen Instanzen kennen, annähern und zwar so annähern und das ist das, worüber wir
uns das letzte Mal unterhalten hatten, dass es sich auf zukünftigen Beispielen möglichst gut
verhält, also wir sagen, dass es möglichst gut generalisiert. Okay, wir hatten das mit einem
Beispiel-Hypothesenraum, nämlich der Hypothesenraum der Entscheidungsbäume mal einmal so durchgeixt und
da war irgendwie ein Lernalgorithmus rausgekommen, der im Wesentlichen nach und nach die Attributtests
abklappert und diejenigen, die uns am meisten Informationsgewinn versprechen, möglichst hoch
in den Baum einbaut und wenn man das regosiv immer weiter macht, dann kriegt man irgendwie so einen
Baum und der ist dann unsere Hypothese. Verschiedene Größen von Bäumen geben uns verschiedene
verschiedene Hypothesen und wir haben erstmal so aus allgemeinen Philosophengründen, wie gesagt,
dass kleine besser sind, weil sie wahrscheinlich nicht unter Overfitting leiden. Dann das Overfitting
hatten wir uns angeguckt, wir hatten uns solche Lernkurven angeguckt, wenn man sozusagen immer
mehr, wenn man das Training, die Trainingsmenge immer vergrößert, wie gut man dann an die echte
Kurve rankommt und wir sehen, dass solche Kurven haben, die tatsächlich Lernvorschritte zeigen.
Das gilt natürlich nur, wenn wir ein realisierbares Problem haben, sonst schmiegt sich das irgendwie
an die beste Annäherung an, wenn wir Glück haben. Wenn wir weniger Glück haben, wenn wir ganz viel
redundante Informationen haben oder sowas, dann tut es das zwar auch, aber sehr langsam. Das ist so
der allgemeine Fall und wir hatten uns dann wiederum angeguckt, wie man Overfitting vermeiden kann und
die Idee war, dass man solche Bäume, wenn man sie denn mal gekriegt hat aus diesem Lernalgorithmen,
unter Umständen noch mal nachbehandeln kann und gewisse von den gewissen solchen Entscheidungsnoten
irgendwie wieder rausschmeißt, um weniger spezielle Bäume zu finden und wir hatten uns da eine
Technik angeguckt, die man Decision-Entscheidungsbaum, Pruning nennt und da war es im Wesentlichen so,
dass man gesagt hat, alles was nicht signifikant Informationen liefert, alle Entscheidungen,
die schmeißen wir raus und wir hatten uns für die Signifikanz hatten wir uns im Wesentlichen so eine
Abstandsfunktion angeguckt, nämlich den Abstand zur Nullhypothese und hatten
dadurch den Sink-Hee-Quadrat-Signifikanz-Test angewendet und hatten dadurch dann einen Algorithmus.
Was wir wollen, ist Overfitting zu vermeiden. Wenn man sich also hingeht und versucht,
rauszukriegen, wie wir das Lernen überhaupt evaluieren wollen, dann wollen wir ja eine
Hypothese finden, die zukünftige Daten am besten abproximiert. Dann hatten wir uns gefragt,
wie kann sowas überhaupt gehen und die Antwort ist, die Zukunft kennen wir nicht. Aber wenn wir
annehmen, dass wir irgendwie eine stationäre Wahrscheinlichkeitsverteilung über die Beispiele,
wenn wir sie als Beobachtungen sehen, annehmen, dann können wir uns durchaus angucken,
wie diese verteilen, wie wahrscheinlich, wir haben das eine Hypothese, zukünftige Daten,
abproximiert und wir hatten uns dazu überlegt, diese IER-ID-Annahme, nämlich einerseits,
dass die Ereignisse, also die Beispiele voneinander unabhängig sind und dass die
Beispiele dieselbe A priori-Wahrscheinlichkeit durchgehend hatten. Wenn wir das haben, können
wir plötzlich anfangen zu rechnen und dann können wir uns Fehlerraten angucken und Fehlerraten sind
natürlich ganz einfach. Man guckt sich an, was missklassifiziert wird und man kann sich dann
überlegen, wie man überhaupt anhand dieser Fehlerraten evaluiert. Da gibt es diese Cross-Validation-Strategie,
einfach, dass man neben der Trainings, aus der Trainingsmenge eine Testmenge aussondert,
die man sozusagen versiegelt und nicht anguckt und dann kann man auf der verbliebenen
Presenters
Zugänglich über
Offener Zugang
Dauer
01:27:47 Min
Aufnahmedatum
2017-07-03
Hochgeladen am
2017-07-04 12:01:48
Sprache
de-DE
Dieser Kurs beschäftigt sich mit den Grundlagen der Künstlichen Intelligenz (KI), insbesondere mit Techniken des Schliessens unter Unsicherheit, des maschinellen Lernens und dem Sprachverstehen.