Was ist eigentlich Unicode?

Web Developer & DesignerKategorie
4 min lesen
Wolf-Dieter Fiege

Kyrillische Buchstaben, japanische Schriftzeichen, deutsch abgebildet im lateinischen Alphabet inklusive der hiesigen Umlaute: Die menschliche Schriftsprache ist ein buntes Durcheinander von Zeichen, dazu kommen arabische Ziffern und selbst ägyptische Hieroglyphen. Trotzdem können Webseiten, Textverarbeitungsprogramme oder Social-Media-Plattformen diese Zeichen lesen, darstellen und zwischen einem Zeichensatz (oder auch character set) und dem nächsten wechseln. Das ist die Power von Unicode! Wahrscheinlich noch wichtiger: Ohne die Standardisierung der Unicode-Zeichen gäbe es keine Emojis.

Was ist Unicode?

Unicode ist ein allgemeingültiger Codierungsstandard (Character Encoding Scheme) zur digitalen Speicherung und Verarbeitung von Schrift. Der Begriff leitet sich von Universal Character Encoding ab, der Standard wird vom Unicode-Konsortium (unicode consortium, unicode.org) gepflegt, einer gemeinnützigen Organisation. Der Standard wird universell unterstützt, etwa von Firmen wie IBM.

Ziel ist es, alle derzeit existierenden Schrift- bzw. Zeichensysteme im Unicode-Standard über den Binärcode (Nullen und Einsen) als Tabellen in einer Datenbank festzuschreiben, ihnen einen eindeutigen Platz (Codepunkt) zuzuweisen und sie damit für digitale Textverarbeitung universell lesbar und verständlich zu machen.
Über diesen Standard sind derzeit rund 230.000 Zeichen erfasst – darunter Sprachzeichen, mathematische Symbole, Sonderzeichen und Emojis. Ebenso dazu gehören Satzzeichen, Leerzeichen und Steuerzeichen. Sogar Ligaturen lassen sich damit darstellen: Damit sind optische Zusammenfassungen von mehreren Buchstaben zu einem neuen, einer Glyphe gemeint. Dies dient zur optischen Korrektur in der Typografie. Etwa eine Million Codeplätze sind noch nicht besetzt, um auf zukünftige Sprachentwicklungen, Zeichenkodierung und Schriftsysteme (und neue Emoji-Ideen) vorbereitet zu sein.

Übrigens: Das unterste Level (Basic Multilingual Plane, BMP) umfasst die Schriftzeichen fast aller modernen Sprachen, darunter Chinesisch, Japanisch und Koreanisch (CJK).

Warum ist Unicode wichtig?

Jede digitale Operation – vom Zugriff auf eine Homepage bis zur Darstellung deines Newsletters – beruht auf der Verarbeitung und Interpretation von Zeichen und Text. Da Computer ausschließlich Nullen und Einsen verstehen, braucht es eine Übersetzungshilfe zwischen dem Binärcode und den Zeichen. Dafür wird per Bits und Bytes jedem Zeichen ein bestimmter Zahlenwert zugeordnet.

Je standardisierter diese Übersetzung ist, desto reibungsloser funktioniert die Darstellung zwischen unterschiedlichen Betriebssystemen, Endgeräten und eben Sprachen.

Bei Unicode lautet der Übersetzungsstandard UTF-8. Ältere Standardisierungsversuche wie der ASCII-Code verwendeten zur Codierung Bits statt Bytes. Das grenzte die Übersetzungsfähigkeiten ein: Ein Bit ist entweder 0 oder 1, es lassen sich also nur zwei Zeichen codieren. Bei acht Bit (einem Byte) können bereits 256 Zeichen eindeutig verschlüsselt werden. Darauf setzt auch Unicode. (Es gibt zudem UTF-16 und UTF-32.)

Der Standard weist außerdem jedem Zeichen einen sogenannten Codepoint zu, der verschiedene Zeichentabellen harmonisiert und das gewünschte Element auffindbar macht. U+2211 für die Summenformel ∑ ist ein solcher Codepoint.

Wo wird Unicode in der Praxis eingesetzt?

Unicode ist der Schrittmacher des Internets und wird für Datenbanken, Software-Bibliotheken und einige unverzichtbare Grundlagen des digitalen Zeitalters verwendet:

  • HTML-Dokumente für Websites basieren auf UTF-8.
  • Betriebssysteme (etwa von Microsoft) nutzen Unicode als internen Standard.
  • Programmiersprachen nutzen Unicode zur Verarbeitung von Text, Variablen und Funktionen.
  • Unicode ist die Basis für die Darstellung von Text in verschiedenen Fonts und Schriftarten.

Wenn du den Codierungsstandard am Werk sehen willst, musst du nur einen Messenger oder deine Textverarbeitung öffnen und zum Beispiel die Zeichenfolge ; + ) eingeben. Das Programm macht daraus ein ????.

Je nach Programm sieht das Emoji zwar etwas anders aus, die Bedeutung ist jedoch immer dieselbe. Genau das ist der entscheidende Punkt: Der universell gültige Sinn hinter der Sprache ist wichtiger als die Ausführung. Ein „A“ soll in jeder Sprache ein „A“ ausdrücken, auch wenn es anders aussieht oder klingt.

Wie kann ich Unicode nutzen?

In den meisten Fällen begleitet dich Unicode im Hintergrund durch dein digitales Leben. Sobald du jedoch besondere Zeichen für deine Website, deinen Blog oder einfach einen Text verwenden willst, kannst du die Codierung aktiv einsetzen.

Erfahre hier, wie schnell und einfach du deine eigene Webseite erstellen kannst. Test jetzt kostenlos den Website-Baukasten für mobile optimierte Websites.

Formeln oder Sonderzeichen – zum Beispiel Häkchen – lassen sich entweder über eine Unicode-Zeichentabelle oder über die Eingabe der entsprechenden Unicode-Zeichencodierung in Dokumente einfügen: In Windows tippst du dazu Zeichencode + Alt + C (Zahl eingeben, Alt-Taste gedrückt halten + C-Taste). Den Zeichencode findest du etwa über die Unicode-Website.

Zusammenfassung

Ganz schön kompliziert, ganz schön komplex und ganz schön wichtig: Unicode, UTF-8 und alle damit verbundenen Standardisierungen im Zeichensatz sorgen dafür, dass wir uns mit der ganzen Welt vernetzen und einander besser verstehen können. Denk daran, wenn du zum Beispiel dein eigenes Emoji erstellst!

Titelmotiv: Bild von Evelyn Chai auf Pixabay

Products Used