NormalizationForm Enumeration
Definition
Wichtig
Einige Informationen beziehen sich auf Vorabversionen, die vor dem Release ggf. grundlegend überarbeitet werden. Microsoft übernimmt hinsichtlich der hier bereitgestellten Informationen keine Gewährleistungen, seien sie ausdrücklich oder konkludent.
Definiert den Typ der auszuführenden Normalisierung.
public enum class NormalizationForm
public enum NormalizationForm
[System.Runtime.InteropServices.ComVisible(true)]
public enum NormalizationForm
type NormalizationForm =
[<System.Runtime.InteropServices.ComVisible(true)>]
type NormalizationForm =
Public Enum NormalizationForm
- Vererbung
- Attribute
Felder
FormC | 1 | Gibt an, dass eine Unicode-Zeichenfolge per vollständiger kanonischer Zerlegung normalisiert wurde und dass danach die Sequenzen, sofern möglich, durch ihre primären kombinierenden Zeichen ersetzt wurden. |
FormD | 2 | Gibt an, dass eine Unicode-Zeichenfolge per vollständiger kanonischer Zerlegung normalisiert wurde. |
FormKC | 5 | Gibt an, dass eine Unicode-Zeichenfolge per vollständiger kompatibler Zerlegung normalisiert wurde und dass danach die Sequenzen, sofern möglich, durch ihre primären kombinierenden Zeichen ersetzt wurden. |
FormKD | 6 | Gibt an, dass eine Unicode-Zeichenfolge per vollständiger kompatibler Zerlegung normalisiert wurde. |
Hinweise
Einige Unicode-Sequenzen werden als gleichwertig betrachtet, da sie dasselbe Zeichen darstellen. Beispielsweise werden die folgenden Als gleichwertig angesehen, da eine dieser Optionen verwendet werden kann, um "ắ" darzustellen:
"\u1EAF" (U+1EAF LATEINISCHER KLEINER BUCHSTABE A MIT BREVE UND AKUT)
"\u0103\u0301" (U+0103 LATIN SMALL LETTER A WITH BREVE + U+0301 COMBINING ACUTE ACCENT)
"\u0061\u0306\u0301" (U+0061 LATIN SMALL LETTER A + U+0306 COMBINING BREVE + U+0301 COMBINING ACUTE ACCENT)
Ordinalvergleiche, d. h. binäre, betrachten diese Sequenzen jedoch unterschiedlich, da sie unterschiedliche Unicode-Codewerte enthalten. Vor dem Durchführen von Ordinalvergleichen müssen Anwendungen diese Zeichenfolgen normalisieren, um sie in ihre grundlegenden Komponenten zu zerlegen.
Jedes zusammengesetzte Unicode-Zeichen wird einer einfacheren Sequenz von einem oder mehreren Zeichen zugeordnet. Der Prozess der Analyse ersetzt zusammengesetzte Zeichen in einer Zeichenfolge durch ihre einfacheren Zuordnungen. Eine vollständige Analyse führt diese Ersetzung rekursiv durch, bis keines der Zeichen in der Zeichenfolge weiter zerlegt werden kann.
Unicode definiert zwei Arten von Zerlegungen: Kompatibilitätskomposition und kanonische Zerlegung. Bei der Kompatibilitätskomposition gehen möglicherweise Formatierungsinformationen verloren. Bei der kanonischen Analyse, bei der es sich um eine Teilmenge der Kompatibilitätskomposition handelt, werden Formatierungsinformationen beibehalten.
Zwei Zeichensätze gelten als kanonische Äquivalenz, wenn ihre vollständigen kanonischen Zerlegungen identisch sind. Ebenso wird davon ausgegangen, dass zwei Zeichensätze eine Kompatibilitätsäquivalenz aufweisen, wenn ihre vollständigen Kompatibilitätsaufschlüsselungen identisch sind.
Weitere Informationen zu Normalisierung, Zerlegungen und Äquivalenz finden Sie unter Unicode Standard Annex #15: Unicode Normalization Forms at unicode.org.