Wir sind nun zur letzten Session dieser dritten Lektur und wir haben die Transformer-Architektur
in der Lektur
die sich in den anderen Domains
insbesondere im Natural Language Processing Domain
befindet.
Es ist eine Architektur, die zeigt, dass ein Modell komplett auf Selbstaufmerksamkeitsmechanismen
gebaut werden kann, ohne die nötige Architektur.
Die Gamechanger-Komponente sind, dass sie
viel effizienter sind.
Input-Sequenzen können in parallel verarbeitet werden.
Wir brauchen keine
mehr durch die Zeit.
Und als kein erheblicher Verständnis der Sequenzordnung,
kann es ein Problem sein, das bald von sich selbst aus ausgelöst wird.
Wir werden sehen, wie.
Es ist versatil.
Es kann an verschiedene Tests verwendet werden, z.B.
im Thema der
Machine Learning Problems mit der Time Series.
So, das sind die Transformer-Architektur.
Die fundamentalen Komponenten der Transformer-Architektur sind die Positionenkodierung
die Multi-Hat-Self-Attention
die auf der Skala.product-Attention basiert
und die
Entkoder-Decoder-Architektur.
Die Transformer wurde zuerst mit dem Problem der Machine-Translation
verwendet
aber jetzt
wie gesagt
hat es so viele Tests verwendet
z.B.
nicht-languagische Tests.
Die Positionenkodung ist der erste
Lärm
er ist zu dem Input und der Output-Sequenzen-Embedding in dem Entkoder-Decoder
und Decoder.
Es ist notwendig, Informationen zu geben, um die Ordnung der Wörter zu
geben.
Da wir keine Rezension haben, ist die Information über die Ordnung der Wörter
verloren.
Deshalb müssen wir zum Input ein paar Informationen geben, die uns sagen,
wo wir in der Sequenz sind, in diesem Moment.
Und das, was Sie hier in den
Slides sehen
ist eine mögliche Formulation für die Positionenkodung
die in diesem
Fall vorgelegt ist, aber wir können es auch lernen.
Und wie gesagt, das ist ein
Wert
ein Vektor
Presenters
Zugänglich über
Offener Zugang
Dauer
00:08:41 Min
Aufnahmedatum
2025-10-07
Hochgeladen am
2025-10-07 14:25:06
Sprache
en-US