Unicode en .NET Framework
Actualización: noviembre 2007
.NET Framework utiliza Unicode UTF-16 (Unicode Transformation Format, Formato de trasformación Unicode de 16 bits) para representar caracteres. En algunos casos, .NET Framework utiliza internamente UTF-8.
El estándar Unicode es el esquema universal de codificación de caracteres para caracteres y texto. Asigna un valor numérico único, denominado punto de código, y un nombre a cada carácter utilizado en los idiomas escritos del mundo. Por ejemplo, el carácter "A" está representado por el punto de código "U+0041" y el nombre "LATIN CAPITAL LETTER A". Hay valores disponibles para más de 65.000 caracteres y espacio para admitir hasta un millón más. Para obtener más información, vea el estándar Unicode en la Unicode home page.
En el pasado, los requisitos de varios idiomas para diferentes referencias culturales obligaban a las aplicaciones a utilizar diversas codificaciones para representar los datos internamente. Esos diversos esquemas de codificación forzaban a los programadores a crear bases de código fragmentado para sistemas operativos y aplicaciones, como ediciones de un solo byte para idiomas europeos, ediciones de doble byte para idiomas asiáticos y ediciones bidireccionales para idiomas de Oriente Medio. Esta fragmentación ha dificultado compartir los datos entre referencias culturales y ha hecho incluso más difícil el desarrollo de aplicaciones de uso internacional que admitan una interfaz de usuario multilingüe.
El esquema de codificación de datos Unicode simplifica el desarrollo de aplicaciones de uso internacional porque permite que todos los caracteres internacionales estén representados en una única codificación. Los programadores de aplicaciones ya no tienen que realizar el seguimiento del esquema de codificación utilizado para producir caracteres para un idioma específico y los datos se pueden compartir internacionalmente entre sistemas sin dañarlos.