15 - Künstliche Intelligenz II [ID:8081]
50 von 565 angezeigt

Dieser Audiobeitrag wird von der Universität Erlangen-Nürnberg präsentiert.

Wir sind im letzten Teil der Vorlesung, wo es um Machine Learning geht und das Problem,

was wir hier lösen, ist gegeben an Hypothesenraum H, sprich also eine Menge von Funktionen und

ein Hypothesenraum, in dem es eine Funktion, eine Echtfunktion F gibt. Echtfunktion ist

einfach eine Menge von Input-Output-Paren, also eine Menge von Beispielen und wir wollen zu einer

Situation möglichst nah mit einer Hypothese H, die im Hypothesenraum ist, möglichst nah an

diese Echtfunktion ranzukommen. Die Echtfunktion muss nicht im Hypothesenraum sein, wenn sie es

ist, nennen wir das Problem realisierbar und wenn nicht, nennen wir es nicht realisierbar und in

dem Fall muss diese beste Hypothese, muss das natürlich möglichst gut annähern. Das ist das

Problem in voller Abstraktheit, dass wir lösen beim Lärm, wir wollen irgendeine Funktion,

die wir nur in gewissen Instanzen kennen, annähern und zwar so annähern und das ist das, worüber wir

uns das letzte Mal unterhalten hatten, dass es sich auf zukünftigen Beispielen möglichst gut

verhält, also wir sagen, dass es möglichst gut generalisiert. Okay, wir hatten das mit einem

Beispiel-Hypothesenraum, nämlich der Hypothesenraum der Entscheidungsbäume mal einmal so durchgeixt und

da war irgendwie ein Lernalgorithmus rausgekommen, der im Wesentlichen nach und nach die Attributtests

abklappert und diejenigen, die uns am meisten Informationsgewinn versprechen, möglichst hoch

in den Baum einbaut und wenn man das regosiv immer weiter macht, dann kriegt man irgendwie so einen

Baum und der ist dann unsere Hypothese. Verschiedene Größen von Bäumen geben uns verschiedene

verschiedene Hypothesen und wir haben erstmal so aus allgemeinen Philosophengründen, wie gesagt,

dass kleine besser sind, weil sie wahrscheinlich nicht unter Overfitting leiden. Dann das Overfitting

hatten wir uns angeguckt, wir hatten uns solche Lernkurven angeguckt, wenn man sozusagen immer

mehr, wenn man das Training, die Trainingsmenge immer vergrößert, wie gut man dann an die echte

Kurve rankommt und wir sehen, dass solche Kurven haben, die tatsächlich Lernvorschritte zeigen.

Das gilt natürlich nur, wenn wir ein realisierbares Problem haben, sonst schmiegt sich das irgendwie

an die beste Annäherung an, wenn wir Glück haben. Wenn wir weniger Glück haben, wenn wir ganz viel

redundante Informationen haben oder sowas, dann tut es das zwar auch, aber sehr langsam. Das ist so

der allgemeine Fall und wir hatten uns dann wiederum angeguckt, wie man Overfitting vermeiden kann und

die Idee war, dass man solche Bäume, wenn man sie denn mal gekriegt hat aus diesem Lernalgorithmen,

unter Umständen noch mal nachbehandeln kann und gewisse von den gewissen solchen Entscheidungsnoten

irgendwie wieder rausschmeißt, um weniger spezielle Bäume zu finden und wir hatten uns da eine

Technik angeguckt, die man Decision-Entscheidungsbaum, Pruning nennt und da war es im Wesentlichen so,

dass man gesagt hat, alles was nicht signifikant Informationen liefert, alle Entscheidungen,

die schmeißen wir raus und wir hatten uns für die Signifikanz hatten wir uns im Wesentlichen so eine

Abstandsfunktion angeguckt, nämlich den Abstand zur Nullhypothese und hatten

dadurch den Sink-Hee-Quadrat-Signifikanz-Test angewendet und hatten dadurch dann einen Algorithmus.

Was wir wollen, ist Overfitting zu vermeiden. Wenn man sich also hingeht und versucht,

rauszukriegen, wie wir das Lernen überhaupt evaluieren wollen, dann wollen wir ja eine

Hypothese finden, die zukünftige Daten am besten abproximiert. Dann hatten wir uns gefragt,

wie kann sowas überhaupt gehen und die Antwort ist, die Zukunft kennen wir nicht. Aber wenn wir

annehmen, dass wir irgendwie eine stationäre Wahrscheinlichkeitsverteilung über die Beispiele,

wenn wir sie als Beobachtungen sehen, annehmen, dann können wir uns durchaus angucken,

wie diese verteilen, wie wahrscheinlich, wir haben das eine Hypothese, zukünftige Daten,

abproximiert und wir hatten uns dazu überlegt, diese IER-ID-Annahme, nämlich einerseits,

dass die Ereignisse, also die Beispiele voneinander unabhängig sind und dass die

Beispiele dieselbe A priori-Wahrscheinlichkeit durchgehend hatten. Wenn wir das haben, können

wir plötzlich anfangen zu rechnen und dann können wir uns Fehlerraten angucken und Fehlerraten sind

natürlich ganz einfach. Man guckt sich an, was missklassifiziert wird und man kann sich dann

überlegen, wie man überhaupt anhand dieser Fehlerraten evaluiert. Da gibt es diese Cross-Validation-Strategie,

einfach, dass man neben der Trainings, aus der Trainingsmenge eine Testmenge aussondert,

die man sozusagen versiegelt und nicht anguckt und dann kann man auf der verbliebenen

Teil einer Videoserie :

Zugänglich über

Offener Zugang

Dauer

01:27:47 Min

Aufnahmedatum

2017-07-03

Hochgeladen am

2017-07-04 12:01:48

Sprache

de-DE

Dieser Kurs beschäftigt sich mit den Grundlagen der Künstlichen Intelligenz (KI), insbesondere mit Techniken des Schliessens unter Unsicherheit, des maschinellen Lernens und dem Sprachverstehen.

Einbetten
Wordpress FAU Plugin
iFrame
Teilen