NormalizationForm Enumeration

Definition

Definiert den Typ der auszuführenden Normalisierung.

public enum class NormalizationForm
public enum NormalizationForm
[System.Runtime.InteropServices.ComVisible(true)]
public enum NormalizationForm
type NormalizationForm = 
[<System.Runtime.InteropServices.ComVisible(true)>]
type NormalizationForm = 
Public Enum NormalizationForm
Vererbung
NormalizationForm
Attribute

Felder

Name Wert Beschreibung
FormC 1

Gibt an, dass eine Unicode-Zeichenfolge mit vollständiger kanonischer Analyse normalisiert wird, gefolgt von der Ersetzung von Sequenzen mit ihren primären Zusammengesetzten, falls möglich.

FormD 2

Gibt an, dass eine Unicode-Zeichenfolge mithilfe einer vollständigen kanonischen Analyse normalisiert wird.

FormKC 5

Gibt an, dass eine Unicode-Zeichenfolge mit vollständiger Kompatibilitätskomposition normalisiert wird, gefolgt von der Ersetzung von Sequenzen mit ihren primären Verbundelementen, falls möglich.

FormKD 6

Gibt an, dass eine Unicode-Zeichenfolge mithilfe der vollständigen Kompatibilitätskomposition normalisiert wird.

Hinweise

Einige Unicode-Sequenzen gelten als gleichwertig, da sie dasselbe Zeichen darstellen. Die folgenden Werden beispielsweise als gleichwertig betrachtet, da eine dieser Werte verwendet werden kann, um "ắ" darzustellen:

  • "\u1EAF" (U+1EAF LATEINISCHER KLEINER BUCHSTABE A MIT BREVE UND AKUT)

  • "\u0103\u0301" (U+0103 LATEINISCHER KLEINER BUCHSTABE A MIT BREVE + U+0301 KOMBINIERT AKUTER AKZENT)

  • "\u0061\u0306\u0301" (U+0061 LATEINISCHER KLEINER BUCHSTABE A + U+0306 KOMBINIERT BREVE + U+0301 KOMBINIERT AKUTE AKZENTE)

Allerdings betrachten binäre Vergleiche diese Sequenzen unterschiedlich, da sie unterschiedliche Unicode-Codewerte enthalten. Vor dem Ausführen von Ordinalvergleichen müssen Anwendungen diese Zeichenfolgen normalisieren, um sie in ihre grundlegenden Komponenten zu zerlegen.

Jedes zusammengesetzte Unicode-Zeichen wird einer einfacheren Abfolge eines oder mehrerer Zeichen zugeordnet. Der Prozess der Analyse ersetzt zusammengesetzte Zeichen in einer Zeichenfolge durch ihre einfacheren Zuordnungen. Eine vollständige Analyse führt diese Ersetzung rekursiv aus, bis keines der Zeichen in der Zeichenfolge weiter dekompiliert werden kann.

Unicode definiert zwei Arten von Zerlegungen: Kompatibilitätskomposition und kanonische Analyse. Bei der Kompatibilitätskomposition gehen möglicherweise Formatierungsinformationen verloren. Bei der kanonischen Analyse, bei der es sich um eine Teilmenge der Kompatibilitätskomposition handelt, werden Formatierungsinformationen beibehalten.

Zwei Zeichensätze gelten als kanonische Äquivalenz, wenn ihre vollständigen kanonischen Zersetzungen identisch sind. Ebenso gelten zwei Zeichensätze als Kompatibilitätsäquivalent, wenn ihre vollständigen Kompatibilitätskompositionen identisch sind.

Weitere Informationen zu Normalisierung, Zerlegungen und Äquivalenz finden Sie in Unicode-Standard-Anhang Nr. 15: Unicode Normalisierungsformulare bei unicode.org.

Gilt für:

Weitere Informationen