Compart - Dokumenten und Output-Management

Entwicklung und Technologie

Unicode: Muss man alles können?

Compart |

Unicode-Zeichen, Fonts und Schriftsysteme

Theoretisch lässt sich mit der aktuellen Unicode-Version nahezu jedes Schriftsystem dieser Welt abdecken. Nur: Kein Font unterstützt alle Zeichen. Die Frage ist daher, wie weit ein Unternehmen in Sachen Unicode gehen sollte.

Wenn es um die digitale Kodierung von Schriftzeichen geht, werden recht schnell einige Mankos deutlich. Zwar setzen die meisten Unternehmen inzwischen Unicode oder mehrere Codepages ein, welche die grundlegenden Buchstaben des lateinischen Alphabets abdecken. Doch bei Sonderzeichen, anderen Alphabeten oder selten genutzten diakritischen Zeichen, stoßen viele schnell an ihre Grenzen. Das ist natürlich problematisch, denn Namen von Personen, Produkten, Marken, Adressen etc., die besondere Buchstaben enthalten, werden dann zum Teil unterschiedlich erfasst oder fehlerhaft dargestellt – je nachdem, welcher Zeichensatz gerade verwendet wird. Vor allem in der öffentlichen Verwaltung handelt es sich hier um einen sensiblen Punkt, denn mit der korrekten Schreibweise können juristische Aspekte verknüpft sein. Zudem haben in vielen EU-Ländern sowie in den USA und Kanada die Bürger einen Rechtsanspruch auf die Richtigkeit ihres Namens, wobei die Transkription mitunter zu Schwierigkeiten führt.

Zum Verständnis: Wenn beispielsweise der Name Møller in manchen Unternehmen als Möller oder Moller geführt wird (weil deren Zeichensatz das ø nicht enthält), schlägt die Suche in der Kundendatenbank oder im Melderegister möglicherweise fehl, weil der Name in abweichender Schreibweise geführt wird.

Unicode: Auf das Wichtige konzentrieren

Auf den ersten Blick ließe sich dieses Problem mit Unicode lösen, denn die aktuelle Version dieses Zeichensatzstandards ist in der Lage, nahezu alle Schriften dieser Welt abzudecken. Tatsächlich sind in der aktuellen Version weit über 100.000 Zeichen berücksichtigt.

Nur – was nützen einem die mehr als eine Million theoretisch zur Verfügung stehenden Unicode-Zeichen, wenn sie nicht von den eingesetzten Fonts unterstützt werden? Bekanntlich genügt es nicht, die Buchstaben bzw. Zeichen zu kodieren – sie müssen sich auch darstellen lassen.

Viele gängige Fonts haben mit 400 bis 500 Zeichen einen sehr begrenzten Umfang. Da stößt man schnell an Grenzen, wenn man bedenkt, dass sich beispielsweise in Deutschland allein die Behörden schon auf 700 einheitlich zu verwendende Buchstaben und Symbole geeinigt haben.

Unicode Zeichen

Unternehmen und Organisationen stehen also vor der Frage, welche Unicode-Zeichen sie überhaupt benötigen und wie sie sich darstellen lassen. Fakt ist: Es gibt keinen Font, der alle Unicode-Zeichen unterstützt, nicht mal die erwähnten 700. Inzwischen nimmt das Thema an Fahrt auf, denn die Internationalisierung unserer Gesellschaft hinterlässt auch in der geschäftlichen Kommunikation ihre Spuren. So erkennen Unternehmen auf Grund des Marktdrucks, dass die richtige Kundenansprache zunehmend zum Wettbewerbsfaktor wird – was bei der korrekten Schreibweise des Namens ja beginnt. Das Problem ist nur, dass viele Firmen veraltete Codepage-Strukturen besitzen bzw. auf die Codepage-basierte Verarbeitung setzen. Mit der Folge, dass sie nicht in der Lage sind, mehr als 100 unterschiedliche Buchstaben und Symbole darzustellen. Hier sind Projekte erforderlich, um die alten IT-Strukturen Unicode-fähig zu machen.

Regeln für die Unicode-Nutzung definieren

Dass man an diesem Standard nicht vorbeikommt, wird ja von niemandem bestritten. Strittig ist vielmehr die Umsetzung. Wie lassen sich bestehende IT-Strukturen in Unternehmen und Organisation möglichst effizient auf Unicode umstellen? Hier herrscht oft Ratlosigkeit bzw. Verwirrung. Da gibt es die einen, die wollen, um auf Nummer sicher zu gehen, möglichst alles abdecken. Und dann die anderen, die nach Gefühl agieren und sich gar nicht bewusst sind, welche Auswirkungen fehlende Unicode-Zeichen haben können.

Fest steht: Bei Unicode muss man sich auf das Wesentliche beschränken. Der öffentliche Sektor in Deutschland ist in diesem Zusammenhang Vorreiter. Hier gibt es inzwischen klare Regelungen, welche Unicode-Zeichen abgedeckt werden müssen. So hat beispielsweise der IT-Planungsrat von Bund und Ländern mit seinem Beschluss 2014/04 einen einheitlichen Unicode-Zeichensatz für die Registerführung und die Datenübermittlung festgelegt. Danach müssen die Namen von Personen in allen elektronisch geführten Verzeichnissen der öffentlichen Verwaltung identisch gespeichert werden.

Unterstützung durch OM-Spezialisten suchen

Andere Branchen wie Banken und Versicherungen hinken hinterher. Manche besitzen überhaupt keine Unicode-Unterstützung, andere wiederum haben ihre Anwendungen zwar auf den Standard umgestellt, wissen aber letztlich nicht, wie sie damit umgehen sollen. Was fehlt, sind genaue Regeln im Handling, quasi die „Leitplanken“. Da werden sich die Branchenverbände und Institutionen wohl bald Gedanken darüber machen müssen und entsprechende Empfehlungen aussprechen.

Doch bis es soweit ist, müssen sich die Unternehmen selbst behelfen und eigene Richtlinien festlegen. Es werden noch Jahre vergehen, bis die Systeme der Dokumentenerstellung und –verarbeitung in den Unternehmen in der Lage sind, den vorgeschriebenen Zeichenvorrat auch in hoher Qualität zu unterstützen.

Ausschließlich lateinische Codepages jedenfalls reichen nicht mehr aus. Andererseits: Je mehr Unicode-Abdeckung man anstrebt, desto komplizierter wird es – schließlich betrifft es alle Systeme innerhalb der Dokumentenverarbeitung – von der Erstellung über die Formatierung und Konvertierung bis zum Versand auf unterschiedlichen Kommunikationskanälen. Gut beraten ist deshalb, wer sich dafür die Unterstützung eines Spezialisten für Dokumentenmanagement und Output-Management sucht, der sich auch mit den Spezifika von Unicode auskennt.

Wie alles anfing: eine kurze Geschichte von Unicode

Herkömmliche Computer-Zeichensätze (Codepages) umfassen nur einen begrenzten Vorrat an Zeichen. Bei westlichen Zeichenkodierungen liegt diese Grenze meistens bei 128 (7 Bit) Codepositionen – wie bei dem sehr bekannten ASCII-Standard – beziehungsweise bei 256 (8 Bit) Zeichen, wie z. B. bei ISO 8859-1 (auch als Latin-1 bekannt) oder Varianten von EBCDIC. Davon sind nach Abzug der Steuerzeichen 95 Elemente bei ASCII und 191 Elemente bei den 8-Bit ISO-Zeichensätzen als Schrift- und Sonderzeichen darstellbar.

Das Problem: Mit diesen Zeichenkodierungen ist es gar nicht oder nur sehr eingeschränkt möglich, Schriftzeichen unterschiedlicher Sprachen in ein- und demselben Text darzustellen. Das behinderte den internationalen Datenaustausch in den 1980er und 1990er Jahren erheblich.

Daher wurde vor einem Vierteljahrhundert Unicode entwickelt, maßgeblich getrieben von Konzernen wie Microsoft und Apple. Ziel war und ist es bis heute, die Inkompatibilität verschiedener Kodierungen zu beseitigen. Daher wurde zunächst der bisherige Zeichensatz herkömmlicher Codepages von ursprünglich 256 auf 65.536 (256 x 256) erweitert. Die erste Version Unicode 1.0 (erschienen 1991) deckte bereits mehr als 50.000 unterschiedliche Schriftzeichen ab. Dazu gehörten unter anderem das lateinische, arabische, kyrillische, hebräische und griechische Alphabet sowie einige „exotische“ Sprachen wie Thai, Lao, Tamil, Malayalam und Telugu. Auch die sogenannten CJK-Schriften (Chinesisch, Japanisch, Koreanisch) waren bereits in Unicode 1.0 enthalten – wenn auch nicht von Beginn an, sondern erst im Release 1.0.1 (Juni 1992).

Schnell stieß man jedoch wieder an Grenzen, so dass der Umfang von Unicode kontinuierlich bis heute erweitert wurde. So sind in der aktuellen Version Unicode 9.0 beispielsweise 135 verschiedene Schriftsysteme kodiert. Das Ende der Fahnenstange dürfte aber noch nicht erreicht sein. Unicode wird ständig um Zeichen weiterer Schriftsysteme ergänzt und unter der Bezeichnung ISO 10646 als Universal Coded Character Set (UCS) bei der Internationalen Organisation für Normung (ISO) geführt.

In der Weiterentwicklung von Unicode steckt noch etliches Potenzial. So beschäftigt man sich derzeit mit der Unterstützung von Emoticons – was manchen lächerlich erscheinen mag, in bestimmten Branchen wie der Telekommunikationsindustrie aus nachvollziehbaren Gründen aber auf reges Interesse stößt.

Unicode, ASCII, Codepages – ein kleines Glossar rund um die digitale Kodierung von Schriftzeichen

ASCII (American Standard Code for Information Interchange)
  • Ist ein Ende der 60-er Jahre in den USA definierter Standard für die 7-Bit-Kodierung von 128 Schriftzeichen (95 druckbare und 33 nicht druckbare Zeichen).
  • Grundlage für nachfolgende, auf mehr Bits basierende Kodierungen.
  • Druckbare Zeichen: lateinisches Alphabet (Groß-/Kleinschreibung), zehn arabische Ziffern, Interpunktionszeichen (Satz-/Wortzeichen) und diverse Sonderzeichen.
  • Nicht druckbare Zeichen: Steuerzeichen wie Zeilenvorschub, Tabulator, Protokollzeichen (Übertragungsende, Bestätigung), Trennzeichen.
  • Manko: deckt nur den englischsprachigen Zeichensatz ab; keine Berücksichtigung von diakritischen Zeichen (Punkte, Häkchen, Bögen, Striche, Kreise) und Buchstaben, die nur in bestimmten lateinischen Alphabeten (u.a. Französisch, Spanisch, Portugiesisch, Türkisch), aber auch in anderen Schriften (u.a. Kyrillisch, Griechisch, Hebräisch, Arabisch, diverse indische Sprachen) vorkommen.
Codepage
  • Zeichensatztabelle zur 8-Bit-Kodierung von maximal 256 Zeichen (davon werden 128 vom ASCII-Standard abgedeckt).
  • Problem: Auf Grund des Limits von 256 Zeichen lassen sich nicht alle Alphabete und Schriften dieser Welt in einer einzigen Tabelle abbilden. Daher existieren unterschiedliche Codepages in entsprechenden Standards, zum Beispiel ISO Latin 1 für die meisten westeuropäischen Zeichen. Insgesamt existieren zurzeit 15 definierte 8-Bit-Zeichensätze, die in der Norm ISO 8859 zusammengefasst sind.
  • Zwar gibt es heute sogenannte Multibyte-Codepages, aber der Umgang mit ihnen erweist sich in der Praxis als recht kompliziert – weshalb sie vor allem in Europa kaum anzutreffen sind.
Diakritika
  • Sind an Buchstaben angebrachte kleine Zeichen wie Punkte, Striche, Häkchen, Bögen oder Kreise, die eine vom ursprünglichen Buchstaben abweichende Aussprache oder Betonung anzeigen und die ihm über- oder untergesetzt sind, in einigen Fällen auch durch den Buchstaben gehen. Das so abgeänderte Zeichen gilt manchmal als derselbe, manchmal als eigenständiger Buchstabe. Die diakritischen Zeichen erlauben die Erweiterung eines Alphabets, ohne dass neue Buchstabenzeichen erfunden werden müssen.
  • In etlichen Sprachen sind diakritische Zeichen zu finden. So existieren allein im lateinischen Alphabet 1.338 Buchstaben, die durch die Verwendung von diakritischen Zeichen entstehen. Aber auch in der arabischen und hebräischen Schrift sowie in den indischen Sprachen sind sie anzutreffen. Hier dienen sie meist zur Angabe der Vokalisierung. Die Verwendung bestimmter diakritischer Zeichen ist oft auf einzelne oder verwandte Sprachen beschränkt, wodurch sie als Erkennungsmerkmal dieser Sprachen dienen können.
Unicode
  • Ist ein seit 25 Jahren existierender Standard für die digitale Kodierung von Schriftzeichen unterschiedlicher Kulturen. Im ersten Schritt wurde der bis dato existierende Umfang herkömmlicher Codepages von 256 auf 65.536 Zeichen erweitert. Die Unicode-Version 1.0 deckte bereits 50.000 Zeichen ab.
  • Heute lassen sich in Unicode theoretisch alle auf der Welt existierenden Alphabete und Schriften digital kodieren, das sind mehr als 1,1 Millionen Zeichen. Tatsächlich sind in der aktuellen Version 8.0 erst 100.000 Zeichen zugeordnet.
  • Unicode definiert nicht nur Sprachen, sondern auch mathematische und Sonderzeichen (u.a. Braille, Emoticons, Währungszeichen).
  • Entstanden ist Unicode aus einer Unternehmensinitiative heraus, an der unter anderem Microsoft und Apple beteiligt waren.

Unicode-Datenbank von Compart

Eines der umfangreichsten Verzeichnisse seiner Art bietet detaillierte Recherchemöglichkeiten

Seit Juni vergangenen Jahres ist auf der Website von Compart eine Datenbank zu Unicode (www.compart.com/de/unicode), dem internationalen Standard für die digitale Kodierung von Schriftzeichen, verfügbar. Sie enthält die gängigsten Codes unterschiedlicher Schriftsysteme und wird kontinuierlich erweitert bzw. aktualisiert. So sollen demnächst auch Zeichensätze aus China, Japan und Korea in die Datenbank aufgenommen werden. Ziel ist es, Programmierern ein verlässliches und umfangreiches Nachschlagewerk an die Hand zu geben und sie dadurch in ihrer Arbeit zu unterstützen.

Unicode-Datenbank von Compart

Das in Deutsch und Englisch vorliegende Unicode-Verzeichnis ist komplett in einem „Responsive Design“ umgesetzt und zeichnet sich durch eine übersichtliche Darstellung sowie eine hohe Geschwindigkeit im Seitenaufbau aus. Alle Zeichen sind logisch klassifiziert und lassen sich daher einfach recherchieren. Sie enthalten detaillierte Informationen einschließlich Quellenangaben sowie weiterführende Links bzw. Verknüpfungen mit verwandten Themen.

Der größte Nutzen dieses umfangreichen Verzeichnisses liegt in den ausgefeilten Recherchemöglichkeiten sowohl zu grundsätzlichen Fragen (u.a. Welche Zeichen sind in einer bestimmten Codepage hinterlegt? Wie viele Buchstaben mit einem Trema gibt es?) bis hin zu sehr spezifischen Anfragen (zum Beispiel: Wie lautet zu einem bestimmten Buchstaben/Symbol der entsprechende AFP-Character?)