Una questione di “carattere”: i problemi di codifica nel processo di globalizzazione

internazionalizzazione, localizzazione e traduzione

Interrompiamo questa settimana il nostro viaggio all’interno del ciclo di globalizzazione per parlare di codifiche dei caratteri. Parlando dell’internazionalizzazione avevo detto:

“La questione senza dubbio più complessa è la codifica dei diversi sistemi di scrittura: infatti perché il computer possa utilizzare i caratteri di una lingua, questi devono essere codificati in un insieme di bit, cioè di numeri; la mappa in cui si descrive la corrispondenza carattere–numero è chiamata encoding: in sintesi, se si vuole utilizzare un carattere, a questo deve essere assegnato un numero”.

A seguire passiamo brevemente in rassegna i principali set di caratteri con codifica a un byte:

ASCII - ISO, localización y traducción

Il codice ASCII (American Standard Code for Information Interchange), probabilmente il più noto fra quelli citati, è in uso dagli anni Sessanta e permette di codificare i caratteri della lingua inglese, in quanto utilizza 7 bit che permettono di ottenere 128 caratteri. Tuttavia questo codice non supporta nemmeno i caratteri accentati o speciali delle principali lingue europee, portando quindi alla creazione dell’extended ASCII o anche l’ANSI (American National Standards Institute) noto anche come ISO–8859–1 (più precisamente, si tende ad utilizzare la codifica ISO–8859–15 che ha aggiunto altri elementi, come il simbolo di euro, al canonico set di caratteri ISO–8859–1, utilizzato dalla maggior parte delle lingue occidentali).

Código ASCII

Il codice ANSI usa 8 bit che combinati producono 256 caratteri, supportando così l’uso della maggioranza delle lingue occidentali. Inoltre esiste più di un set di caratteri per tali lingue come dimostra l’uso del Microsoft 1252.

Le altre  citate nell’elenco si riferiscono invece alle codifiche per Europa orientale, meridionale e settentrionale e poi per cirillico, greco moderno, ebraico e turco.

Tuttavia, se si considerano lingue più complesse, la codifica a un byte non è più sufficiente: le lingue asiatiche usano più di 40.000 caratteri che richiedono due byte per rappresentarne uno;

tra i set di caratteri a due byte si ricordino ad esempio:

  • ISO–2022–JP per il giapponese;
  • GB 2312–80 per il cinese semplificato;
  • Big 5 per il cinese tradizionale;
  • ISO–2022–KR per il coreano.

La questione sembrerebbe così risolta: è sufficiente conoscere il set di caratteri corretto per la lingua specifica per scrivere e visualizzare testi in quel linguaggio; nel caso di una pagina HTML basta specificare nel tag META quale set di caratteri si utilizza:

<META http–equiv=”content–type” content=”text/html; charset=ISO–8859–15”>

Tuttavia, sorgono numerosi problemi nel caso in cui si utilizzino diversi set di caratteri nella stessa pagina Web; infatti se un codice nell’ANSI visualizza un determinato carattere, lo stesso codice sarà associato ad un carattere diverso in un differente set.

La risoluzione del problema dei conflitti tra set diversi è quindi cruciale per l’internazionalizzazione di un prodotto e ha portato alla nascita di Unicode.

La caratteristica peculiare di questo set è che ogni carattere è rappresentato da un solo numero, senza possibilità di conflitti nelle diverse lingue; infatti, Unicode è indipendente da piattaforma e lingua d’uso, supportando quasi tutti i linguaggi esistenti grazie all’elevato numero di caratteri inclusi nel set (oltre 94.000 nella versione 3.1, ora siamo alla versione 7). Unicode può poi essere codificato in diversi modi: se la codifica base è a 16 bit (UTF–16), quella più familiare nel mondo della Rete è UTF– 8 (Unicode Transformation Format).

Unicode alphabet

 

Infine si ricorda che l’HTML può usare un set di caratteri ancora più completo noto come UCS16 (Universal Character Set) che tuttavia è totalmente compatibile con Unicode. In pratica però si parla generalmente di Unicode piuttosto che di ISO 10646, da un lato perché Unicode è più esplicito sul significato dei caratteri, dall’altro perché sono reperibili informazioni più dettagliate sul Web.

Unicode offre enormi vantaggi tra cui:

  1. la codifica può essere usata indipendentemente dalla lingua o dagli script usati;
  2. si può produrre un solo file binario per tutte le versioni da localizzare, riducendo i tempi di sviluppo e i test necessari;
  3. permette di sviluppare applicazioni che possano gestire diverse lingue e linguaggi di programmazione;
  4. è aggiornato costantemente.

Unicode è dunque un set di caratteri compatibile con gli obiettivi dell’internazionalizzazione ed è quindi largamente consigliato nei progetti di globalizzazione.

Non perdetevi il prossimo capitolo dove continuerò a parlarvi del complesso mondo della localizzazione, la traduzione e l’internazzionalizazione tra tanto altri argomenti e tematiche. Grazie ed a presto!

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

Crea un sitio web o blog en WordPress.com

Subir ↑

foraladacolau

Welcome to your new home on WordPress.com

Pasar la palabra

Blog sobre las vivencias de un traductor autónomo por René Fdez.

Translator Mentoring Blog

Sharing ideas about, experience with and insights into the business of translation

Ana Basanta Libros

Literatura de viajes, crónicas periodísticas y narrativa

Neolosfera

Cada dia, una paraula nova

Tranix Translation & Proof-Editing Services

Words are my business and I want to make them work for you

Gabriela Quiaro

Traducción, literatura, ortografía , idiomas.

Traducción, comunicación y redes sociales | ismaelpardo.com

Traducción, comunicación y redes sociales

T2

A blog on Translation & Technology (T2) by Celia Rico

El blog de Fabio

Baluarte literario y cultural

andreaere

Exu mató un pájaro ayer con la piedra que tiró hoy

Transit/TermStar NXT Tooltips

Tips and tricks for translators, terminologists and project managers

Habla italiano

¡Es fácil, es divertido, es gratis!

Un millón de españoles

El blog de Joaquín Calvo Basarán

A %d blogueros les gusta esto: