Freigeben über


Einzelbyte- und Multibytezeichensätze

Mit dem ASCII-Zeichensatz werden Zeichen im Bereich von 0x00 bis 0x7F definiert. Es gibt andere Zeichensätze, in erster Linie europäisch, die die Zeichen innerhalb des Bereichs 0x00 - 0x7F definieren, identisch mit dem ASCII-Zeichensatz, und die auch einen erweiterten Zeichensatz von 0x80 - 0xFF definieren. Daher reicht ein 8-Bit-Single-Byte-Zeichensatz (Single-Byte-Character Set, SBCS) aus, um den ASCII-Zeichensatz und die Zeichensätze für viele europäische Sprachen darzustellen. Einige nicht europäische Zeichensätze, z. B. Japanisch Kanji, enthalten jedoch viele mehr Zeichen als ein Codierungsschema mit einem Byte und erfordern daher eine MBCS-Codierung (Multibyte-Zeichensatz).

Hinweis

Viele SBCS-Routinen der Microsoft-Laufzeitbibliothek verarbeiten nach Bedarf Multibytebyte, Zeichen und Zeichenfolgen. Viele Multibyte-Zeichensätze definieren den ASCII-Zeichensatz als Teilmenge. In vielen Multibyte-Zeichensätzen sind die Zeichen im Bereich von 0x00 bis 0x7F mit den gleichwertigen Zeichen des ASCII-Zeichensatzes identisch. Das ein Byte lange Zeichen NULL („\0“) hat z.B. in ASCII- und MBCS-Zeichenfolgen den Wert 0x00 und steht für das abschließende NULL-Zeichen.

Ein Multibyte-Zeichensatz kann aus 1-Byte- und 2-Byte-Zeichen bestehen. Eine Multibyte-Zeichenfolge kann eine Mischung aus Einzelbyte- und Doppelbytezeichen enthalten. Ein 2-Byte-Multibytezeichen verfügt über ein führendes Byte und ein nachfolgendes Byte. In einem bestimmten Mehrbyte-Zeichensatz liegen die führenden Bytes ebenso wie die nachfolgenden Bytes innerhalb eines bestimmten Bereichs. Wenn sich diese Bereiche überlappen, müssen Sie möglicherweise den Kontext auswerten, um zu bestimmen, ob ein bestimmtes Byte als Leadbyte oder als Trailbyte funktioniert.

Siehe auch

Internationalisierung
Universelle C-Laufzeitroutinen nach Kategorie