5 - The Transformer architecture [ID:58844]

50 von 138 angezeigt

Wir sind nun zur letzten Session dieser dritten Lektur und wir haben die Transformer-Architektur

in der Lektur

die sich in den anderen Domains

insbesondere im Natural Language Processing Domain

befindet.

Es ist eine Architektur, die zeigt, dass ein Modell komplett auf Selbstaufmerksamkeitsmechanismen

gebaut werden kann, ohne die nötige Architektur.

Die Gamechanger-Komponente sind, dass sie

viel effizienter sind.

Input-Sequenzen können in parallel verarbeitet werden.

Wir brauchen keine

mehr durch die Zeit.

Und als kein erheblicher Verständnis der Sequenzordnung,

kann es ein Problem sein, das bald von sich selbst aus ausgelöst wird.

Wir werden sehen, wie.

Es ist versatil.

Es kann an verschiedene Tests verwendet werden, z.B.

im Thema der

Machine Learning Problems mit der Time Series.

So, das sind die Transformer-Architektur.

Die fundamentalen Komponenten der Transformer-Architektur sind die Positionenkodierung

die Multi-Hat-Self-Attention

die auf der Skala.product-Attention basiert

und die

Entkoder-Decoder-Architektur.

Die Transformer wurde zuerst mit dem Problem der Machine-Translation

verwendet

aber jetzt

wie gesagt

hat es so viele Tests verwendet

z.B.

nicht-languagische Tests.

Die Positionenkodung ist der erste

Lärm

er ist zu dem Input und der Output-Sequenzen-Embedding in dem Entkoder-Decoder

und Decoder.

Es ist notwendig, Informationen zu geben, um die Ordnung der Wörter zu

geben.

Da wir keine Rezension haben, ist die Information über die Ordnung der Wörter

verloren.

Deshalb müssen wir zum Input ein paar Informationen geben, die uns sagen,

wo wir in der Sequenz sind, in diesem Moment.

Und das, was Sie hier in den

Slides sehen

ist eine mögliche Formulation für die Positionenkodung

die in diesem

Fall vorgelegt ist, aber wir können es auch lernen.

Und wie gesagt, das ist ein

Wert

ein Vektor

Teil einer Videoserie :

Seminar Advances in Deep Learning for Time Series (WiSe25-26)

Teil eines Kapitels:

DL for Time Series

Presenters

Dr. Dario Zanca

Zugänglich über

Offener Zugang

Dauer

00:08:41 Min

Aufnahmedatum

2025-10-07

Hochgeladen am

2025-10-07 14:25:06

Sprache

en-US

We introduce the Transformer architecture and discuss its application to time series data