Kumpulan karakter byte tunggal dan multibyte

Kumpulan karakter ASCII mendefinisikan karakter dalam rentang 0x00 - 0x7F. Ada banyak set karakter lain, terutama Eropa, yang menentukan karakter dalam rentang 0x00 - 0x7F identik dengan set karakter ASCII dan juga menentukan set karakter yang diperluas dari 0x80 - 0xFF. Set karakter byte tunggal (SBCS) 8-bit cukup untuk mewakili set karakter ASCII dan set karakter untuk banyak bahasa Eropa. Namun, beberapa set karakter non-Eropa, seperti Kanji Jepang, menyertakan lebih banyak karakter daripada yang dapat diwakili dalam skema pengodean byte tunggal, sehingga memerlukan pengodean multibyte-character set (MBCS).

Catatan

Banyak rutinitas SBCS pustaka run-time Microsoft menangani byte multibyte, karakter, dan string yang sesuai. Banyak set karakter multibyte mendefinisikan kumpulan karakter ASCII sebagai subset. Dalam banyak set karakter multibyte, setiap karakter dalam rentang 0x00 - 0x7F identik dengan karakter yang memiliki nilai yang sama dalam kumpulan karakter ASCII. Misalnya, dalam string karakter ASCII dan MBCS, karakter null satu byte ('\0') memiliki nilai 0x00 dan menunjukkan karakter null yang mengakhiri.

Set karakter multibyte dapat terdiri dari karakter 1-byte dan 2-byte. String karakter multibyte dapat berisi campuran karakter byte tunggal dan byte ganda. Karakter multibyte dua byte memiliki byte utama dan byte jejak. Dalam set karakter multibyte tertentu, byte prospek berada dalam rentang tertentu, seperti halnya byte jejak. Ketika rentang ini tumpang tindih, Anda mungkin perlu mengevaluasi konteks untuk menentukan apakah byte tertentu berfungsi sebagai byte prospek atau byte jejak.

Baca juga

Internasionalisasi
Rutinitas runtime Universal C menurut kategori