8 - Rechnerarchitektur [ID:10862]
50 von 718 angezeigt

Willkommen zur Vorlesung der Woche. Ich habe gesehen, wunderbar, Sie haben sich alles schon

in meinem Campus angemeldet für die Prüfung. Muss ich gar nichts mehr sagen, vorbildlich,

vorbildlich. Gut, wo sind wir denn angekommen in der Vorlesung? Bei der Modellierung von Multikern,

Architektur, Multikern, Prozessoren. Aufgehört haben wir, wenn ich mich noch richtig im Kopf

habe, ja bei diesen Ficam Prozessoren und bei der Technologie. Das ist also aus dem Artikel von einer

S.Balka, das ist mittlerweile die CEO, also eine ganz wichtige Dame bei Intel und ja, den Artikel

und all die Weisheiten dazu, die ich Ihnen in der Vorlesung zeige, die habe ich Ihnen im Stud-Omb

bereitgelegt. Also 1000-Core-Chips, da können Sie das alles nochmal nachlesen, da werden Sie

noch einige der Folien jetzt wieder entdecken, bzw. der Bilder auf den Folien werden Sie dann

in diesem PDF-Dokument dann wieder sehen. Ja, das ist also so eine Begründung, warum soll der Weg

von Multicore zu Manycore gehen? Also mit Multicore gehen wir uns jetzt erst einmal noch gar nicht

zufrieden, wir wollen also noch ein Stück weiter gehen und ich will heute auch mal ein bisschen

hinterfragen, wie dieses, anhand dieses Artikels auch, wie denn die Multicore, die Manycore-Entwicklung

dann in Zukunft aussehen soll. Sind das dann wirklich 1000-Core-A7-Strukturen oder was oder

wie, es gibt ja vielleicht andere Wege, die sinnvoller sind. Dann sehen Sie hier auch noch

Ruflein, also das werden wir heute auch noch machen. Das Ruflein-Modell ist so eine abstrakte

Beschreibung, ja was heißt eine abstrakte Beschreibung, eher ein mathematisches Modell,

was man dann aber auch schön visualisieren kann, um herauszubekommen, woran liegt es denn, wenn meine,

wo ist mein Prozessor, wie ist mein Prozessor begrenzt? Ist er durch, wie es so schön heißt,

compute bound, ist er begrenzt durch die Anzahl der Kanne, das einfach nicht mehr gerechnet werden

kann, er ist am Anschlag oder ist er durch etwas anderes begrenzt und zwar dadurch, dass er ständig

auf dem Speicher warten muss, memory bound und das Ruflein-Modell soll uns da helfen,

das herauszubekommen und auch unsere Applikation einzuordnen und damit dann auch Hilfestellung

zu geben, wie wir tunen sollen. Na gut, aber erstmal jetzt hier zu dieser Modellierung von

Multicore, die nehmen wir jetzt in der RA-Vorlesung, ja so ich hatte also letzte Woche noch angefangen

diese Folie dazu erklären, 2001 waren wir also bei 130 Nanometer Technologie und ich habe Ihnen an

der Tafel noch aufgezeigt, dass man dann immer mit so, naja mit 0,7 Faktor zur nächsten Technologie

Generation kommt und 0,7 ist nicht einfach so gewählt, sondern 0,7 ist deswegen gewählt,

weil ich dann nämlich eine Verdopplung bei der Anzahl der Transistoren habe auf der Chipfläche

und damit stimmt dann das Mursche-Gesetz, also das war ein bisschen provokant formuliert, also man

sieht aber natürlich, dass das Mursche-Gesetz in dem Sinn kein Gesetz ist, sondern etwas, an dem

man sich orientieren will. Naja, wenn es jetzt so weitergehen würde, also 32 Nanometer war Stand

der Technik, als dieses Papier von der Frau Burka da geschrieben wurde und da ist eben auch eine

Prognose enthalten bis zum Jahr 2015, wenn es so weitergeht, dann hat man dann, die Chips werden

auch größer, auf einem 3 Quadratzentimeter großen Chip die, also auf den nackten Chip, der noch nicht

gehäust ist, wären dann 1,5 Milliarden Transistoren drauf, wenn man also ungefähr da hier, das ist

jetzt also Millionen angegeben und davon sind ungefähr 100 Megabyte Alliance, wäre dann für

den Cash übrig und 1,5, wobei das stimmt mir nicht ganz, also das ist meiner Meinung nach,

ich finde, da stimmt die Grafik nicht, die Riesengalierung, weil 1,5B, also das steht

für Billionen, die Amerikaner kennen keine Milliarde, nach den Kommt-nach-den Millions

kommt danach die Billionen, also bei uns ist das jetzt eine Milliarde und das sehe ich aber hier

irgendwie nicht richtig, oder? Also eine Milliarde, 1,5 Milliarden wäre irgendwo hier oben, das ist

nicht ganz da oben, also hier steht 1000, 1000 Millions Transistor, also wäre das eine Billion

im Amerikanischen oder eine Milliarde Transistoren, also es müsste ein bisschen weiter oben ja sein,

wie auch immer, auf jeden Fall, wir sehen, das meiste an der Anzahl an Transistoren wird eigentlich

für den Cash ausgegeben. Und ja, was tun wir mit diesen ganzen vielen Prozessoren, weitere

Caches einbauen, Gigabyte Caches oder was macht das wirklich Sinn und bis vor kurzem war nicht der

Trend, das habe ich jetzt aus und aus gebessert gestern, da stand hier Trend, nicht bis vor kurzem,

sondern einfach Trend, wenige große Prozessorkanne zu nehmen, immer mehr Prozessorkanne, 20 bis 100

Millionen Logiktransistoren und ein großer gemeinsamer Cash. Ja, ist das eine vernünftige

Teil einer Videoserie :

Zugänglich über

Offener Zugang

Dauer

01:27:08 Min

Aufnahmedatum

2013-12-05

Hochgeladen am

2019-04-30 00:19:03

Sprache

de-DE

Die Vorlesung baut auf die in den Grundlagen der Rechnerarchitektur und -organisation vermittelten Inhalte auf und setzt diese mit weiterführenden Themen fort. Es werden zunächst grundlegende fortgeschrittene Techniken bei Pipelineverarbeitung und Cachezugriffen in modernen Prozessoren und Parallelrechnern behandelt. Ferner wird die Architektur von Spezialprozessoren, z.B. DSPs und Embedded Prozessoren behandelt. Es wird aufgezeigt, wie diese Techniken in konkreten Architekturen (Intel Nehalem, GPGPU, Cell BE, TMS320 DSP, Embedded Prozessor ZPU) verwendet werden. Zur Vorlesung werden eine Tafel- und eine Rechnerübung angeboten, durch deren erfolgreiche Beteiligung abgestuft mit der Vorlesung 5 bzw. 7,5 ECTS erworben werden können. In den Tafelübungen werden die in der Vorlesung vermittelten Techniken durch zu lösende Aufgaben vertieft. In der Rechnerübung soll u.a. ein einfacher Vielkern-Prozessor auf Basis des ZPU-Prozessors mit Simulationswerkzeugen aufgebaut werden. Im Einzelnen werden folgende Themen behandelt:
  • Organisationsaspekte von CISC und RISC-Prozessoren

  • Behandlung von Hazards in Pipelines

  • Fortgeschrittene Techniken der dynamischen Sprungvorhersage

  • Fortgeschritten Cachetechniken, Cache-Kohärenz

  • Ausnutzen von Cacheeffekten

  • Architekturen von Digitalen Signalprozessoren

  • Architekturen homogener und heterogener Multikern-Prozessoren (Intel Corei7, Nvidia GPUs, Cell BE)

  • Architektur von Parallelrechnern (Clusterrechner, Superrechner)

  • Effiziente Hardware-nahe Programmierung von Mulitkern-Prozessoren (OpenMP, SSE, CUDA, OpenCL)

  • Leistungsmodellierung und -analyse von Multikern-Prozessoren (Roofline-Modell)

Empfohlene Literatur
  • Patterson/Hennessy: Computer Organization und Design
  • Hennessy/Patterson: Computer Architecture - A Quantitative Approach

  • Stallings: Computer Organization and Architecture

  • Märtin: Rechnerarchitekturen

Einbetten
Wordpress FAU Plugin
iFrame
Teilen