Was ist Unicode ?


Auf dieser Seite will ich Ihnen meine Erfahrungen zur Verwendung von Unicode in HTML-Dokumenten zur Darstellung von bestimmten Sonderzeichen osteuropäischer Sprachen vermitteln. Bitte beachten Sie jedoch, daß ich nur HTML-„Amateur“ bin und daher keine Gewähr für die Richtigkeit dieser Hinweise geben kann.

Unicode ist ein weltweit gültiges Verschlüsselungssystem für Schriftzeichen aller Sprachen und Kulturen. Es dient dazu, Schriftzeichen einheitlich zu verschlüsseln, so daß beim internationalen Datenaustausch die mittels Unicode verschlüsselten Schriftzeichen überall korrekt wiedergegeben werden. Unicode macht sich die Tatsache zunutze, daß Schriftzeichen in Speichermedien immer als Zahlenkombination verschlüsselt abgelegt werden. Unicode funktioniert unabhängig vom Betriebssystem und bei Verwendung von Microsoft Internet Explorer auch unabhängig von lokal installierten Schriftzeichensätzen.

Struktur von Unicode

Der Unicode-Schlüssel für jedes Schriftzeichen besteht aus 16 Bit = 4 Hexadezimalstellen = 2 Byte. Dabei sind Zeichen, die vorzugsweise in bestimmten Sprachräumen verwendet werden, zu Gruppen zusammengefaßt. Jeder dieser Gruppe ist ein bestimmter Unicode-Bereich zugeordnet. Für die europäischen Sprachen sind z. B. folgende Gruppen von besonderem Interesse (Auflistung nicht vollzählig):

Zeichengruppe

Unicode-Zeichenbereich (hexadezimal)

Allgemeine Steuerzeichen und Latin-Standartzeichen

0000 bis 007F

Latin-1 (Westeuropa, inkl. Deutschland)

0080 bis 00FF

Latin Extendet-A (Osteuropa)

0100 bis 017F

Latin Extendet-B

0180 bis 024F

Greek

0370 bis 03FF

Cyrillic

0400 bis 04FF

Wo finden Sie die Unicode-Schlüssel ?

Das Unicode-Konsortium hat alle Unicode-Schlüssel im Internet veröffentlicht, Sie können diese Schlüssel jederzeit nachschlagen unter: http://www.unicode.org . Nach Aufruf der Hauptseite rufen Sie „Character Charts“ auf. Es wird Ihnen eine Linkliste angezeigt, auf der Sie Links zu allen Unicode-Listen für alle Zeichengruppen finden. Die Links führen zu PDF-Files, die Sie entweder online einsehen oder auch niederladen können. In diesen Files finden Sie Tabellen, in denen die Sonderzeichen dargestellt sind und der dazugehörige Unicode-Schlüssel hexadezimal angegeben ist.

Wie wird der Unicode-Schlüssel in HTML-Dokumenten korrekt eingegeben ?

Zur korrekten Eingabe von Unicode-Schlüsseln ist in der Regel die Quelltextansicht erforderlich. Fügen Sie an der Stelle, an der ein Sonderzeichen angezeigt werden soll, den Unicode-Schlüssel wie folgt ein:

Beachten Sie bitte, daß bei hexadezimaler Eingabe einige Web-Browser den Unicode-Schlüssel nicht interpretieren, bekannt ist mir das vom Netscape Communicator. Darüber hinaus interpretiert der Netscape Communicator die Unicodes nur dann korrekt, wenn außerdem im Head der HTML-Datei der Schriftzeichensatz definiert ist. Daher ist immer die dezimale Eingabe und zugleich die Definition des Schriftzeichensatzes im Head zu empfehlen, diese wird sowohl vom Microsoft Internet Explorer als auch vom Netscape Communicator korrekt interpretiert. Darüber hinaus dürfen Sie bei der dezimalen Eingabe keine Vornullen einzugeben. Zur Umrechnung von Hexadezimalcode in Dezimalcode können Sie jeden guten Taschenrechner oder den Microsoft Windows-Rechner benutzen.

Der Microsoft Internet Explorer interpretiert die Unicode-Schlüssel auch bei hexadezimaler Eingabe und ohne Definition des Schriftzeichensatzes im Head.

Beispiel:

Zur korrekten Eingabe des polnischen Schriftzeichens „Ł“ (großes „L“ mit von links nach rechts ansteigendem Querbalken, sog. Stroke, wenn Sie ein „A“ sehen, ist Ihr Browser veraltet) gehen Sie wie folgt vor:

  1. In der Tabelle „Latin Extendet-A“ finden Sie für dieses Zeichen den Hexadezimalcode „0141“.
  2. Rechnen Sie diesen Code in den Dezimalcode um: „321“.
  3. Geben Sie ein: „Ł“.

Nachstehend sehen Sie, ob Ihr Browser bei den unterschiedlichen Eingabemöglichkeiten den Unicode korrekt interpretiert:

Ł   hexadezimal mit Vornull
Ł   hexadezimal ohne Vornull
Ł   dezimal ohne Vornullen

Wenn Sie ein „A“ sehen, ist Ihr Browser veraltet.

Wie wird der Schriftzeichensatz im Head definiert ?

Zur Definition des Schriftzeichensatzes geben Sie im Head folgende Meta-Anweisung in spitzen Klammern ein:

meta http-equiv="content-type" content="text/html; charset=iso-8859-2"

iso-8859-2 steht für Schriftzeichensatz Osteuropa.

Diese Seite habe ich am 27.10.2001 letztmalig überarbeitet.