VAD

Unicode – Schriftzeichen (Teil 4)

/

/

Unicode – Schriftzeichen (Teil 4)

Noch viel verbreiteter als die Kodierung im Dezimalsystem ist in Unicode die Kodierung im Hexadezimalsystem. Nun mag man sich fragen, warum man nicht einfach dabei bleiben kann mit Dezimalcodes zu arbeiten. Die Welt der Computer ist jedoch eine Welt der Bits und Bytes; sie arbeitet vor allem mit binären Zahlen.

Unicode im Hexadezimalsystem

In binärem Code kann jede Stelle, Bit (engl. „binary digit“) genannt, nur einen der beiden Werte ‘0’ oder ‘1’ haben, “die jeweils den elektrischen Werten von ‘aus’ oder ‘an’ entsprechen“ (Indiana University, 2018). Man fasst dann jeweils vier solcher mit Nullen und Einsen besetzten Stellen zu einem halben Byte (engl. „nibble“) zusammen, und acht solcher binären Stellen zu einem Byte. Geschichtlich betrachtet, wurden nun acht solcher binären Ziffern (1 Byte) genutzt, um ein Zeichen darzustellen. (Anfangs reichte die 8 Bit-Kodierung pro Zeichen, mit der man bis zu 256 Zeichen kodieren kann, noch aus. Erst als man immer mehr Zeichen kodieren wollte, ging man dazu über, mehr als 1 Byte pro Zeichen zu verwenden.) Bis heute stellt das Byte in den meisten Computersystemen die kleinste adressierbare Speichereinheit dar.

Die Vorliebe für das aus acht Stellen bestehende Byte erklärt denn auch, warum Informatiker das Hexadezimalsystem oft bevorzugen. Wie bereits der Name „Sechszehner-System“ andeutet, basiert es auf Potenzen der Zahl 16. Statt wie das Dezimalsystem 10 Ziffern (0-9) zu nutzen bevor es auf die nächsthöhere Ebene übergeht, nutzt das Hexadezimalsystem 16 Ziffern (0-15, siehe Video). Um bei mehrstelligen Ziffern Mehrdeutigkeiten zu vermeiden, werden dabei die Ziffern 10-15 von den Buchstaben A-F repräsentiert.

Mit dem Hexadezimalsystem kann man recht praktisch die Abfolgen von Binärzahlen darstellen: eine Hexadezimalziffer steht jeweils für vier Binärziffern (1 Halbbyte), während zwei Hexadezimalziffern für acht Binärziffern (1 Byte) stehen. Es ist daher für Informatiker oft einfacher oder naheliegender, Binärcodes in Hexadezimal- statt in Dezimalangaben umzuwandeln.

Tatsächlich ist das Hexadezimalsystem so gängig und verbreitet, dass in den vom Unicode-Konsortium veröffentlichten Zeichentabellen alle Angaben ausschließlich in hexadezimaler Kodierung gemacht werden.

Afrikanische Schriftzeichen im hexadezimalen Zeichencode

Auf der Webseite des Unicode-Konsortiums (unicode.org) findet man die verschiedenen Tabellen (engl. „character code charts“) mit den Hexadezimalcodes für die verschiedenen Zeichen, die in Blöcken von Schriftsystemen angeordnet sind. Speziell für Afrikanische Schriftsysteme hat Unicode zudem einige erklärende Spezifikationen zusammengestellt (zum Stand 2014, Unicode Version 7.0.0; zum Stand der inzwischen erschienenen Unicode Version 11.0.0. siehe die Spezifikationen von 2018, S. 741-764).

Am einfachsten schaut man auf der nach Sprachen bzw. Schriftsystemen geordneten Übersichtsseite nach den Schriftzeichen, die man in den eigenen Text einfügen will.

Für Zeichen zur Niederschrift afrikanischer Sprachen in lateinischer Schrift oder in von lateinischen Buchstaben abgewandelten Schriftsystemen, wird man am besten in einem der „lateinischen“ Blöcke fündig:

Latin scripts in Unicode 11.0.0, 2018: decimal and hexadecimal ranges, based on unicode.org 2018. CC: AN 2018, BY-NC-SA.

Andere Schriftsysteme verfügen dagegen über jeweils eigene Blöcke:

European and Middle Eastern Scripts in Unicode 11.0.0, 2018 (selection): decimal and hexadecimal ranges, based on unicode.org 2018. CC: AN 2018, BY-NC-SA.

Auf der Seite von unicode.org finden sich auch mehrere spezifisch afrikanische Schriftsysteme, wie Adlam (für Fula im Sahelgebiet und in West-Afrika), Bamum (für Bamum in Kamerun), Bassa Vah (für Bassa in Liberia und Sierra Leone), Mende Kikakui (die Kikakui-Schrift für Mende in Sierra Leone), N’Ko (für Manding-Sprachen in West-Afrika), Osmanya (für Somali in Nordost-Afrika), Tifinagh (für Berber-Sprachen in Marokko, Algerien, Mali und Niger, zum Beispiel Tuareg), Vai (für Vai in Liberia und Sierra Leone) und äthiopische Schriftzeichen (z.B. für Ge’ez und Amharisch in Äthiopien, oder Tigrinya in Äthiopien und Eritrea). Mit der neuesten Version von Unicode 11.0.0. ist seit Juni 2018 auch Medefaidrin hinzugekommen (es wird von christlichen Ibibio-Gemeinden in Nigeria „für moderne liturgische Zwecke“ verwendet, unicode.org 2018).

African scripts in Unicode 11.0.0, 2018: decimal and hexadecimal ranges, based on unicode.org 2018. CC: AN 2018, BY-NC-SA.

Bislang ist die Zahl der in Unicode aufgenommenen ägyptischen Hieroglyphen begrenzt (und eine komplexe Angelegenheit, wenn Glyphen in einer bestimmten Art und Weise angeordnet werden sollen). Es ist jedoch bereits angekündigt, dass Unicode in naher Zukunft um eine substantielle Zahl weiterer ägyptischer Hieroglyphen erweitert werden soll. Bisher sind auch noch nicht alle alten ägyptischen Schriftsysteme in Unicode enthalten; so fehlen bislang etwa die „priesterliche SchriftHieratisch und Demotisch.

Auch zahlreiche andere afrikanische Schriften sind noch nicht in Unicode aufgenommen, wie beispielsweise die Borama (Gadabuursi) und Kaddare Alphabete (für Somali), das Luo Alphabet („Luo Lakeside Script“ für Luo-Sprachen vor allem in Kenya), Zaghawa (für Zaghawa im Tschad und im Sudan), oder Mandombe (für Bantusprachen der beiden Kongos, auch in Angola). Es ist jedoch zu hoffen, dass in Zukunft noch mehr dieser Schriftsysteme Eingang in Unicode finden. Für Mandombe beispielsweise wurde 2016 schon ein neuer Vorschlag für Unicode eingereicht.

Hier geht es weiter zum Beitrag Unicode – Schriftzeichen (Teil 5).

Facebook
Twitter
LinkedIn
Email
Print