Wir beginnen also heute mit dem ersten Teil von XML. Im Grunde ist es sogar eigentlich
ein Standard, der nicht wirklich XML ist, sondern der von XML benutzt wird, aber aus
meiner Sicht tatsächlich eine ganz wichtige Grundlage, die man eben bei XML auch immer
beachten sollte, nämlich dass man den sogenannten Unicode-Standard als Grundlage benutzt.
Unicode-Standard bedeutet, dass man alle Zeichen der Welt, die soweit standardisiert sind,
in XML eben auch benutzen kann.
Wir müssen uns heute drei verschiedene Dinge etwas genauer anschauen.
Was sind denn Zeichensätze überhaupt?
Welche Zeichensätze gibt es?
Dann eben der Unicode-Standard.
Und als letztes sozusagen die Gemeinheit am Unicode-Standard, das ist nämlich die Codierung,
die Zeichencodierung, die bei Unicode immer mal wieder für Schwierigkeiten sorgt.
Auch in der praktischen Arbeit, da müssen wir noch ein bisschen was darüber erfahren.
So, also schauen wir uns mal an, was ist das mit den Zeichenstandards denn überhaupt?
Also zunächst mal, was ist Unicode überhaupt, damit wir sozusagen einen Begriff davon haben.
Also Unicode ist ein internationaler Industriestandard.
Er ist tatsächlich auch inzwischen ganz gut akzeptiert.
Das ist immer so eine Frage bei Standards, wie gut dass sie akzeptiert sind.
Es gibt Standards, die sind zwar eingeführt worden, aber am Ende verwendet sie keiner
oder nützen die Standards natürlich nichts.
Aber Unicode ist ein ganz gut akzeptierter Standard.
Ziel ist es, alle Schriftzeichen der Welt zu vereinen.
Das war bis zum Start von Unicode, wie wir sehen, der Unicode Konsortium 1991 gegründet,
also inzwischen fast 20 Jahre alt, gab es einfach unterschiedliche Zeichensätze,
die eben in den einzelnen Ländern standardisiert wurden und die dann eben für eine bestimmte
Sprache, für eine Verwendung von Zeichen dann verwendet worden sind.
Also Idee dahinter ist auch eine Vereinheitlichung, Normierung und Zusammenfassung
aller dieser Schriftzeichen.
Bekannt auch als ISO-Standard, also insofern ist es schon etwas, was auf eine relativ breite,
standardisierte Basis gesetzt wurde.
Im Grunde so der Art Ur-Zeichensatz aller Zeichensätze, der ist der berühmt berüchtigte
ASCII-Zeichensatz.
Den haben Sie zumindest alle, die Informatiker sind oder die schon, naja, oft findet man so
was am Anfang so, wie gehe ich mit einem Computer um, dann erzählt einem jemand was
über ASCII.
Das ist sozusagen der Ur-Zeichensatz.
Sie sehen, das sind 128 Zeichen, tatsächlich auch mit 7-Bit darstellbar.
Naja, das ist jetzt so eine Geschichte, das wird uns noch öfter begegnen.
Wie viele Bit braucht man denn, dass man eben solche Zeichen darstellen kann?
Also hier unten sehen Sie den ASCII-Zeichensatz.
Da sind, naja, typischerweise eben die Zeichen drauf, die Sie vielleicht auf einer amerikanischen
Tastatur, Schreibmaschinentastatur gefunden hätten, solange es noch Schreibmaschinen
gab.
Halt die großen und kleinen Buchstaben, so ein paar Sonderzeichen und eben die Zahlen.
Das sind dann insgesamt also etwas weniger als 128 Zehen.
Da oben die ersten zwei Reihen, da sind irgendwelche bunt eingefährdeten Kästchen.
Das sind so Spezialzeichen, die insbesondere auch aus der, naja, wie nannte man die Dinge,
Fernschreiber, ne?
Also so, bitte?
Nee, nicht Telefax, sondern Bevor es elektronische Datenübertragung im Sinne von Fernschreiber
Presenters
Prof. Dr. Josef Schneeberger
Zugänglich über
Offener Zugang
Dauer
01:19:35 Min
Aufnahmedatum
2010-05-04
Hochgeladen am
2011-04-11 13:53:28
Sprache
de-DE