Einzelbyte- und Multibytezeichensätze
Mit dem ASCII-Zeichensatz werden Zeichen im Bereich von 0x00 bis 0x7F definiert. Es gibt viele andere Zeichensätze, in erster Linie europaisch, die die Zeichen innerhalb des Bereichs 0x00 definieren – 0x7F identisch mit dem ASCII-Zeichensatz und definieren auch einen erweiterten Zeichensatz aus 0x80 - 0xFF. Eine 8-Bit-, Einzel-Byte-Zeichenmenge (SBCS) ist ausreichend, um die ASCII-Zeichenmenge und die Zeichensätze für viele europäische Sprachen darzustellen. Einige nicht europäische Zeichensätze, wie z. B. Japanisch Kanji, umfassen jedoch viele mehr Zeichen als in einem Codierungsschema mit einzel byte, und erfordern daher die Codierung von Multibyte-Zeichen (MBCS).
Hinweis
Viele Microsoft-Laufzeitbibliotheks-SBCS-Routinen behandeln multibyte Bytes, Zeichen und Zeichenfolgen entsprechend. Viele Multibyte-Zeichensätze definieren den ASCII-Zeichensatz als Teilmenge. In vielen Multibyte-Zeichensätzen sind die Zeichen im Bereich von 0x00 bis 0x7F mit den gleichwertigen Zeichen des ASCII-Zeichensatzes identisch. Das ein Byte lange Zeichen NULL („\0“) hat z.B. in ASCII- und MBCS-Zeichenfolgen den Wert 0x00 und steht für das abschließende NULL-Zeichen.
Ein Multibyte-Zeichensatz kann sowohl aus 1-Byte- als auch aus 2-Byte-Zeichen bestehen. Eine Multibyte-Zeichenzeichenfolge kann eine Mischung aus Ein-Byte- und Doppel-Byte-Zeichen enthalten. Ein 2-Byte-Multibytezeichen verfügt über ein führendes Byte und ein nachfolgendes Byte. In einem bestimmten Mehrbyte-Zeichensatz liegen die führenden Bytes ebenso wie die nachfolgenden Bytes innerhalb eines bestimmten Bereichs. Wenn diese Bereiche überlappen, müssen Sie den Kontext möglicherweise bewerten, um zu ermitteln, ob ein bestimmtes Byte als Lead-Byte oder ein Trail-Byte funktioniert.
Weitere Informationen
Internationalisierung
Universelle C-Laufzeitroutinen nach Kategorie