Auf dieser Seite will ich Ihnen meine Erfahrungen zur Verwendung von Unicode in HTML-Dokumenten zur Darstellung von bestimmten Sonderzeichen osteuropäischer Sprachen vermitteln. Bitte beachten Sie jedoch, daß ich nur HTML-Amateur bin und daher keine Gewähr für die Richtigkeit dieser Hinweise geben kann.
Unicode ist ein weltweit gültiges Verschlüsselungssystem für Schriftzeichen aller Sprachen und Kulturen. Es dient dazu, Schriftzeichen einheitlich zu verschlüsseln, so daß beim internationalen Datenaustausch die mittels Unicode verschlüsselten Schriftzeichen überall korrekt wiedergegeben werden. Unicode macht sich die Tatsache zunutze, daß Schriftzeichen in Speichermedien immer als Zahlenkombination verschlüsselt abgelegt werden. Unicode funktioniert unabhängig vom Betriebssystem und bei Verwendung von Microsoft Internet Explorer auch unabhängig von lokal installierten Schriftzeichensätzen.
Der Unicode-Schlüssel für jedes Schriftzeichen besteht aus 16 Bit = 4 Hexadezimalstellen = 2 Byte. Dabei sind Zeichen, die vorzugsweise in bestimmten Sprachräumen verwendet werden, zu Gruppen zusammengefaßt. Jeder dieser Gruppe ist ein bestimmter Unicode-Bereich zugeordnet. Für die europäischen Sprachen sind z. B. folgende Gruppen von besonderem Interesse (Auflistung nicht vollzählig):
Zeichengruppe |
Unicode-Zeichenbereich (hexadezimal) |
---|---|
Allgemeine Steuerzeichen und Latin-Standartzeichen |
0000 bis 007F |
Latin-1 (Westeuropa, inkl. Deutschland) |
0080 bis 00FF |
Latin Extendet-A (Osteuropa) |
0100 bis 017F |
Latin Extendet-B |
0180 bis 024F |
Greek |
0370 bis 03FF |
Cyrillic |
0400 bis 04FF |
Das Unicode-Konsortium hat alle Unicode-Schlüssel im Internet veröffentlicht, Sie können diese Schlüssel jederzeit nachschlagen unter: https://www.unicode.org . Nach Aufruf der Hauptseite rufen Sie Character Charts auf. Es wird Ihnen eine Linkliste angezeigt, auf der Sie Links zu allen Unicode-Listen für alle Zeichengruppen finden. Die Links führen zu PDF-Files, die Sie entweder online einsehen oder auch niederladen können. In diesen Files finden Sie Tabellen, in denen die Sonderzeichen dargestellt sind und der dazugehörige Unicode-Schlüssel hexadezimal angegeben ist.
Zur korrekten Eingabe von Unicode-Schlüsseln ist in der Regel die Quelltextansicht erforderlich. Fügen Sie an der Stelle, an der ein Sonderzeichen angezeigt werden soll, den Unicode-Schlüssel wie folgt ein:
Beachten Sie bitte, daß bei hexadezimaler Eingabe einige Web-Browser den Unicode-Schlüssel nicht interpretieren, bekannt ist mir das vom Netscape Communicator. Darüber hinaus interpretiert der Netscape Communicator die Unicodes nur dann korrekt, wenn außerdem im Head der HTML-Datei der Schriftzeichensatz definiert ist. Daher ist immer die dezimale Eingabe und zugleich die Definition des Schriftzeichensatzes im Head zu empfehlen, diese wird sowohl vom Microsoft Internet Explorer als auch vom Netscape Communicator korrekt interpretiert. Darüber hinaus dürfen Sie bei der dezimalen Eingabe keine Vornullen einzugeben. Zur Umrechnung von Hexadezimalcode in Dezimalcode können Sie jeden guten Taschenrechner oder den Microsoft Windows-Rechner benutzen.
Der Microsoft Internet Explorer interpretiert die Unicode-Schlüssel auch bei hexadezimaler Eingabe und ohne Definition des Schriftzeichensatzes im Head.
Beispiel:
Zur korrekten Eingabe des polnischen Schriftzeichens Ł (großes L mit von links nach rechts ansteigendem Querbalken, sog. Stroke, wenn Sie ein A sehen, ist Ihr Browser veraltet) gehen Sie wie folgt vor:
Nachstehend sehen Sie, ob Ihr Browser bei den unterschiedlichen Eingabemöglichkeiten den Unicode korrekt interpretiert:
Ł hexadezimal mit Vornull
Ł hexadezimal ohne Vornull
Ł dezimal ohne Vornullen
Wenn Sie ein A sehen, ist Ihr Browser veraltet.
Zur Definition des Schriftzeichensatzes geben Sie im Head folgende Meta-Anweisung in spitzen Klammern ein:
meta http-equiv="content-type" content="text/html; charset=iso-8859-2"
iso-8859-2 steht für Schriftzeichensatz Osteuropa.
Diese Seite habe ich am 27.10.2001 letztmalig überarbeitet.