Unicode

Unicode: ¿Qué es lo que engloba?

La actual versión de Unicode cubre, en teoría, casi todos los sistemas de escritura del mundo, sin embargo las fuentes no soportan todos los caracteres. Por tanto cabe preguntarse ¿cómo deben manejar las empresas Unicode?

 

Unicode

Cuando se trata de codificación de caracteres digitales, salen a la luz diferentes deficiencias; de hecho, la mayoría de las empresas usan Unicode o páginas múltiples de códigos que cubren las letras básicas del alfabeto Latino. Sin embargo los caracteres especiales, otros alfabetos y marcas diacríticas que se usan poco, hacen que nos salgamos de lo habitual.

Por supuesto que esto es un problema ya que los nombres de personas y productos, marcas corporativas y direcciones, etc, que contienen caracteres especiales en ocasiones introducidos de forma diferente o incluso mostrados incorrectamente, dependen del conjunto de caracteres tipográficos en uso.

Así pues se trata de un tema delicado especialmente en la administración pública donde la ortografía incluso puede tener implicaciones legales. Por si fuera poco, en muchos países europeos, en Estados Unidos y Canadá los ciudadanos tienen derecho legalmente a la ortografía exacta de sus nombres y la transcripción a veces causa problemas.

Tomemos como ejemplo el nombre Møller. En compañías cuyo conjunto de caracteres no incluye la letra ø, el nombre puede introducirse como Möller o Moller. Debido a que el nombre está escrito en diferentes formas, una búsqueda en la base de datos del cliente o en el registro civil podría dar lugar a errores.

 

Unicode: concentrarse en lo que es importante

A primera vista parece que el problema puede ser resuelto con Unicode; después de todo la versión actual de este set de caracteres estándar puede cubrir casi todos los sistemas de escritura del mundo, de hecho la versión actual cuenta con más de 100.000 caracteres. Pero, ¿de qué sirven los más de un millón de puntos de código Unicode disponibles teóricamente si las fuentes utilizadas no los admiten? No es suficiente codificar las letras o los caracteres, está claro que también necesitan ser visualizados.

Muchas fuentes convencionales son bastante limitadas, solamente soportan de 400 a 500 caracteres. Los límites se ponen de manifiesto cuando se considera que las autoridades de Alemania, por ejemplo, ya han acordado el uso regular de 700 letras y símbolos.

Empresas y organizaciones por tanto tienen que enfrentarse a la cuestión de cuántos caracteres Unicode pueden necesitar y cómo van a visualizarse. El caso es que ninguna fuente soporta todos los caracteres Unicode, por no hablar de los 700 mencionados. Mientras, el tema va tomando mayor importancia cuando consideramos que la internacionalización de nuestra sociedad también afecta a la comunicación de los negocios.

La misma presión del mercado hace que las empresas estén despertando ante el hecho de que el idioma de los consumidores y clientes es un factor competitivo cada vez más relevante, comenzando por la correcta ortografía de los nombres.

Sin embargo el problema radica en que muchas firmas tienen estructuras de páginas de código obsoletas y dependen del procesamiento basado en página de códigos. Consecuentemente no son capaces de asignar los más de 100 diferentes tipos de letras y símbolos. Las antiguas estructuras TI tienen que ser compatibles con Unicode.

Definir las reglas para usar Unicode

No se puede evitar el estándar Unicode; esto es algo indiscutible. Por otro lado su implementación es otra historia. ¿Cómo pueden empresas y organizaciones convertir sus estructuras TI existentes a Unicode de forma eficaz? En este punto suele reinar la perplejidad y la confusión. Algunos quieren jugar con la seguridad incluyendo todos los caracteres, otros en cambio siguen su intuición cegándose ante las consecuencias de omitir los caracteres Unicode.

También es cierto que con Unicode se necesita limitarse a lo esencial. Por ejemplo el sector público alemán es pionero en este aspecto. Existen normas claramente establecidas sobre los caracteres Unicode a cubrir. En su resolución de abril de 2014, el Consejo Alemán de Planificación TI de federaciones y estados definió un mismo conjunto de caracteres Unicode para registro y transmisión de datos. En él se especifica que los nombres de las personas deben ser almacenados en forma idéntica en todos los registros electrónicos públicos.

El apoyo de especialistas en Output Management

Sectores como la banca o las aseguradoras se están quedando atrás. Algunos no tienen ningún soporte de Unicode, otros han convertido sus aplicaciones al estándar pero realmente no saben cómo trabajar con ello. Lo que falta son reglas precisas para el manejo - los "vigías" por así decirlo. Las asociaciones e instituciones de la industria no tendrán más remedio que reflexionar sobre este tema y dar a conocer sus recomendaciones.

Mientras tanto las empresas necesitan reiniciar y definir sus propias directrices. Pasarán años hasta que la creación de documentos y los sistemas de procesamiento de las compañías estén disponibles para soportar el repertorio de caracteres específicos con un alto nivel de calidad.

Las páginas de código latino por si solas ya no son suficientes. Por otro lado, cuanto mayor sea la cobertura de Unicode, más complicada será. De forma general, afecta a todos los sistemas de procesamiento de documentos – desde la generación, el formateo y la conversión hasta la entrega a través de diferentes canales de comunicación. El mejor consejo es buscar el apoyo de un especialista en gestión y salida de documentos que también esté bien versado en especificaciones de Unicode.

Un breve resumen sobre Unicode

Las páginas de códigos de los ordenadores convencionales sólo cubren un número limitado de caracteres. En las codificaciones de caracteres occidentales, este límite está establecido habitualmente en 128 (7-bit) puntos de código – como en el estándar familiar ASCII – o 256 (8-bit) caracteres, como es el caso de ISO 8859-1 (también conocido como Latin 1) o variantes de EBCDIC. Después de restar los caracteres de control, solamente permanecen 95 elementos para visualizar las letras así como caracteres especiales en ASCII y 191 elementos en los set de caracteres de 8-bit ISO.

El problema con estas codificaciones de caracteres es que la visualización de diferentes idiomas en un mismo texto es difícil, por no decir imposible. Este hecho perjudicó considerablemente el intercambio internacional de datos en los años 80 y 90.

Por eso Unicode fue desarrollado hace 25 años, en buena parte por compañías como Microsoft y Apple con el objetivo que aún persiste de superar la incompatibilidad de las diferentes codificaciones. Al principio, el conjunto de caracteres previo de las páginas de códigos convencionales se amplió desde el original de 256 a 65,636 (256 X 256).

La primera versión, Unicode1.0 (lanzada en 1991), ya cubría más de 50.000 caracteres diferentes e incluía los alfabetos latino, árabe, cirílico, hebreo y griego así como diferentes idiomas “exóticos” como tailandés, laosiano, tamil, malabar y telugu. Unicode 1.0 también incorporó las llamadas escrituras CJK (chino, japonés, coreano), si bien no fue hasta la versión 1.0.1 (en junio de1992).

No obstante surgían limitaciones una y otra vez y ha seguido así durante la continua expansión de Unicode hasta nuestros días. Por ejemplo, la última iteración de Unicode, la versión 9.0, cuenta con 135 sistemas codificados diferentes de escritura.

Pero este no acaba la historia. Los caracteres de otros sistemas de escritura irán sumándose continuamente a Unicode y serán gestionados bajo la designación de ISO 10646 como el set de caracteres codificados universales -Universal Coded Character Set- (UCS) de la Organización Internacional para la Estandarización (ISO).

El potencial de desarrollo de Unicode es ilimitado. El trabajo actual se dedica al soporte de emoticonos – que puede parecer una simpleza para algunos, pero en determinadas industrias como las telecomunicaciones, el tema comprensiblemente cuenta con un gran interés.

Unicode, ASCII, códigos de página – Un glosario conciso de codificación de caracteres digitales

ASCII (American Standard Code for Information Interchange) Código Estándar Americano para Intercambio de Información
  • El estándar definido en los EE.UU. a finales de los años 1960 para la codificación de 128 caracteres de 7 bits (95 imprimibles y 33 no imprimibles).
  • Base para la codificación posterior basada en más bits.
  • Caracteres imprimibles: Alfabeto latino (letras mayúsculas minúsculas), diez dígitos Arábicos, signos de puntuación y diferentes caracteres especiales.
  • Caracteres no imprimibles: Caracteres de control como el avance de línea, pestaña, caracteres de protocolo (fin de transmisión, confirmación, separadores.)
  • Inconvenientes: cubre solo el set de caracteres inglés; no incluye signos diacríticos (diéresis, corchetes, paréntesis, tildes, círculos) Y las letras que se dan solamente en ciertos alfabetos latinos (francés, español, portugués, turco) así como otras escrituras (cirílico, griego, hebreo, árabe y varios idiomas de la India).
Página de Códigos
  • Tabla de conjunto de caracteres para la codificación de de 256 caracteres maxi de 8 bits (de ellos, 128 están cubiertos por el estándar ASCII).
  • Problema: El límite de 256 caracteres impide la asignación de todos los alfabetos y escrituras del mundo en una sola tabla, de ahí la existencia de diferentes páginas de códigos en estándares correspondientes, como ISO Latin 1 para la mayoría de los caracteres occidentales. Actualmente existen un total de 15 sets de caracteres definidos de 8 bit que se combinan con el estándar ISO 8859.
  • También existen las llamadas páginas de código multibyte pero son bastante complicados de utilizar en la práctica, por lo que rara vez se encuentran en Europa.
Diátricos
  • Signos como diéresis, tildes, corchetes, paréntesis o círculos que se añaden a las letras para denotar una pronunciación diferente o enfatizar en la palabra original; los signos diacríticos se colocan por encima o por debajo, y en algunos casos a través de las letras. La letra modificada puede ser considerada la misma letra o una letra separada. Los signos diacríticos amplían el alfabeto sin tener que crear nuevas letras.
  • Los signos diátricos se encuentran en muchos idiomas. Solo el alfabeto latino cuenta con 1.338 letras resultantes de los signos diátricos. También se encuentran en el árabe, el hebreo y en algunas lenguas de la India donde se usa fundamentalmente para indicar vocalización.

Unicode

Unicode

  • Estándar para la codificación digital de caracteres de diferentes lenguas escritas que cuenta con 25 años de presencia. En su primera etapa, el número de caracteres cubiertos en las páginas de códigos originales se amplió de 256 a 65.536. La versión Unicode 1.0 cubría 50.000 caracteres.
  • Teóricamente Unicode hoy puede usarse para digitalizar códigos de todos los alfabetos e idiomas del mundo; lo que supone más de 1,1 millón de caracteres. De hecho, sólo se asignan 100.000 caracteres en la versión actual la 8.0.
  • Unicode no solamente define idiomas sino también caracteres matemáticos y especiales (incluido Braille, emoticonos, signos monetarios).
  • Unicode se originó de una iniciativa corporativa que incluía a Microsoft y Apple.
Unicode Glossary

Base de Datos Unicode de Compart

Es uno de los índices más completos de su tipo que ofrece infinitas opciones de investigación.

Desde el pasado mes de junio la web de Compart (www.compart.com) ha presentado una base de datos para Unicode, el estándar internacional para la codificación digital de caracteres. Contiene los códigos más comunes de diferentes sistemas de escritura y se actualiza y amplía continuamente.

Pronto se añadirán también un set de caracteres de China, Japón y Corea. El objetivo es ofrecer a los programadores un referente completo y de confianza para apoyarlos en su trabajo.

El índice de Unicode, disponible en alemán e inglés, sigue los principios de diseño receptivo para una óptima visualización y velocidad. Todos los caracteres están clasificados de forma lógica para una búsqueda más fácil. Proporciona información detallada de cada carácter tipográfico incluidas citas de fuentes y links relacionados.
El mayor beneficio del índice global son sus opciones de investigación avanzada.

Se pueden encontrar respuestas a cuestiones básicas (¿Qué caracteres se guardan en una página de códigos específica? ¿Cuántas letras tiene una diéresis?), o hacer preguntas para cuestiones específicas (¿Cuál es el carácter AFP para una letra o símbolo específico?)

Para acceder a la base de datos Unicode de Compart, visitar la página web: www.compart.com/en/unicode

 

Usted también podría estar interesado en

Obtenga las respuestas
y soluciones que necesitas