Qué es y cómo trabaja Unicode

Unicode proporciona un número único para cada carácter, sin importar la plataforma, sin importar el programa, sin importar el idioma

Unicode

Si tu trabajo se circunscribe a una relación profesional que no supera los límites de un país, en este no existen diferentes idiomas con diferentes grafías, tu trabajo no requiere de la introducción de signos diferentes de los más comúnmente utilizados, usar Unicode es una necesidad que no te surgirá. Pero si has de intercambiar información con colegas que utilizan sistemas de grafías diferentes, compartir datos entre varios sistemas informáticos, u ofrecer servicios a usuarios internacionales, utilizar Unicode te resultará imprescindible. Los sistemas informáticos ya utilizan compilaciones de signos codificados que recogen la grafía de grupos de idiomas, por ejemplo el Western European code incluye inglés, español, portugués, francés, italiano y alemán, pero deja fuera al polaco, checo, eslovaco, ruso, etc. La pretensión de Unicode es incluirlos todos.

El gran volumen de información científica generado de forma continua por investigadores de diferentes países sobre los más variados temas hace imprescindible que los servicios de información, entre los que se encuentran las bibliotecas, dispongan de buscadores que rastreen la información en las diferentes bases de datos científicas existentes, y que lo haga de una forma simultánea en todas ellas y transparente para el usuario o la usuaria que los utilice. Esta búsqueda simultánea, ya habitual en las bibliotecas, obliga a que los registros bibliográficos sobre los que consultar utilicen Unicode para describir esos contenidos escritos con grafías diferentes.

Sin darnos cuenta Unicode se va introduciendo progresivamente por la necesidad de disponer de un conjunto de códigos más extenso y con aspiración universal para recoger todos los caracteres de los idiomas y símbolos científicos utilizados en la redacción de un texto y que este sea localizable por los buscadores.
Proyectos para codificar diferentes idiomas con grafías especiales, y que estos pudiesen ser interpretados de forma correcta por dispositivos electrónicos han existido con anterioridad a Unicode, alfabetos de base latina u oriental se encontraban unificados con anterioridad a Unicode, pero la falta de normativa común a todos ellos hacía imposible el intercambio de información entre sistemas de una forma ágil. Se pretendía solucionar un problema y se creaba otro, puesto que estos proyectos no unificaban código, sino que sustituían uno por otro, generándose una variedad similar a la que se pretendía corregir.

Las limitaciones de los códigos creados fue otra de las causas que impulsó Unicode. ASCII fue un código utilizado con anterioridad, pero estaba desarrollado para codificar los signos generados por un teclado dirigido a usuarios anglosajones, por lo que muchos términos como la á, é, í, ó, ú, ñ en español o francés, así como puntuaciones del alemán, sueco o danés, quedaban fuera, por no mencionar los idiomas chino, japonés, ruso o árabe.

Unicode es un estándar resultado de la convergencia con la ISO 10646-1 creado para el tratamiento informático de textos escritos en las diferentes grafías de los idiomas, así como en nomenclaturas técnicas. El objetivo de Unicode es la creación de un código único para todos esos caracteres que sea universal, uniforme y único.

El planteamiento del proyecto es sencillo, se trata de crear unas normas precisas de uso y un identificador único para cada carácter, si bien el gran número de idiomas y lenguajes técnicos existentes ha producido una ilimitada variedad de caracteres que es necesario codificar, que además va en aumento debido a la incorporación de idiomas no contemplados inicialmente, incluso lenguas hoy desaparecidas (http://www.unicode.org/charts/index.html).

La misión de mantener todo este complejo sistema de normalización le corresponde al Unicode Technical Committee y a empresas implicadas de diferente manera como Apple, Oracle, Google, Yahoo, Microsoft, etc, así como bibliotecas y fabricantes de software bibliotecario, formando todos ellos el Consorcio Unicode.

La utilidad de este código unificado es fácil de comprender, permite el intercambio de textos a nivel mundial, pues posibilita ser leído por cualquier dispositivo electrónico adaptado a la norma por la que está codificado el texto recibido. Cada dígito es transformado en un código numérico, denominado también “punto de código”, así la letra A es 0041, B es 0042, C es 0043, y así para cada uno de los signos empleados en cualquiera de los lenguajes normalizados en Unicode (http://www.unicode.org/charts/PDF/U0000.pdf). Cada punto de código va precedido del prefijo “U+”, quedando el código de las letras anteriormente citadas de la siguiente forma: U+0041, U+0042, etc.

Unicode es un producto vivo, con revisiones y actualizaciones periódicas que permiten liberar nuevas versiones de forma constante, todo ello motivado por su objetivo de codificar todos los signos generados para la transmisión de información, no sólo alfabéticos, sino también de otro tipo, como iconos, notaciones musicales, o símbolos matemáticos y por supuesto diacríticos.

Obra publicada con Licencia Creative Commons Reconocimiento No comercial Compartir igual 4.0