Sortowania i czułość względem wielkości liter

Przetwarzanie tekstu w bazach danych może być złożone i wymaga większej uwagi użytkownika niż podejrzewa się. Po pierwsze, bazy danych znacznie różnią się w sposobie obsługi tekstu; na przykład w niektórych bazach danych wielkość liter jest rozróżniana domyślnie (np. Sqlite, PostgreSQL), podczas gdy inne są nierozróżniające wielkości liter (SQL Server, MySQL). Ponadto, ze względu na użycie indeksów, rozróżnianie wielkości liter i podobne aspekty mogą mieć daleko idący wpływ na wydajność zapytań: chociaż może być kuszące użycie string.ToLower do wymuszenia porównania bez rozróżniania wielkości liter w bazie danych rozróżniającej wielkość liter, może to uniemożliwić aplikacji użycie indeksów. Na tej stronie szczegółowo opisano sposób konfigurowania rozróżniania wielkości liter lub, ogólniej mówiąc, ustawień sortowania, i jak to zrobić w sposób wydajny, nie obniżając wydajności zapytań.

Wprowadzenie do kolacji

Podstawową koncepcją przetwarzania tekstu jest sortowanie, czyli zestaw reguł określający sposób porządkowania i porównywania wartości tekstowych pod kątem równości. Na przykład podczas gdy sortowanie bez uwzględniania wielkości liter pomija różnice między wielkimi i małymi literami do porównania równości, sortowanie uwzględniające wielkość liter tego nie robi. Jednak ponieważ czułość wielkości liter jest wrażliwa na kulturę (np. i i I reprezentuje różne litery w języku tureckim), istnieje wiele sortowania bez uwzględniania wielkości liter, z których każdy ma własny zestaw reguł. Zakres sortowania wykracza również poza wielkość liter, na inne aspekty danych znaków; w języku niemieckim, na przykład, czasami (ale nie zawsze) pożądane jest traktowanie ä i ae tak samo. Na koniec sortowania definiują również sposób porządkowania wartości tekstowych: podczas gdy niemieckie miejsca ä po a, szwedzkie umieszcza je na końcu alfabetu.

Wszystkie operacje tekstowe w bazie danych używają sortowania — jawnie lub niejawnie — w celu określenia, jak operacja porównuje ciągi i porządkuje je. Rzeczywista lista dostępnych sortowań oraz ich schematy nazewnictwa są specyficzne dla poszczególnych baz danych; zapoznaj się z poniższą sekcją, aby uzyskać linki do odpowiednich stron z dokumentacją różnych baz danych. Na szczęście bazy danych zwykle zezwalają na zdefiniowanie domyślnego sortowania na poziomie bazy danych lub kolumny oraz jawne określenie sortowania, które ma być używane dla określonych operacji w zapytaniu.

Sortowanie bazy danych

W większości systemów baz danych domyślne sortowanie jest definiowane na poziomie bazy danych; chyba że zostanie zastąpione, sortowanie niejawnie ma zastosowanie do wszystkich operacji tekstowych występujących w tej bazie danych. Sortowanie bazy danych jest zazwyczaj ustawiane w momencie tworzenia bazy danych (za pośrednictwem instrukcji DDL CREATE DATABASE), a jeśli nie zostanie podane, domyślnie przyjmuje wartość z poziomu serwera ustaloną podczas instalacji. Na przykład domyślne sortowanie na poziomie serwera w programie SQL Server dla ustawień regionalnych 'angielski (Stany Zjednoczone)' to SQL_Latin1_General_CP1_CI_AS, czyli sortowanie z uwzględnieniem wielkości liter i akcentów. Mimo że systemy baz danych zwykle zezwalają na zmianę sortowania istniejącej bazy danych, może to prowadzić do komplikacji; Zaleca się wybranie sortowania przed utworzeniem bazy danych.

Korzystając z migracji EF Core do zarządzania schematem bazy danych, można w metodzie OnModelCreating swojego modelu skonfigurować bazę danych SQL Server, aby używała sortowania uwzględniającego wielkość liter.

modelBuilder.UseCollation("SQL_Latin1_General_CP1_CS_AS");

Sortowanie kolumn

Sortowania można również zdefiniować w kolumnach tekstowych, nadpisując domyślną wartość bazy danych. Może to być przydatne, jeśli niektóre kolumny muszą być niewrażliwe na wielkość liter, podczas gdy pozostała część bazy danych musi uwzględniać wielkość liter.

W przypadku używania migracji EF Core do zarządzania schematem Twojej bazy danych, następująca konfiguracja ustawia kolumnę właściwości Name jako niezależną od wielkości liter w bazie danych, która w przeciwnym razie jest wrażliwa na wielkość liter.

modelBuilder.Entity<Customer>().Property(c => c.Name)
    .UseCollation("SQL_Latin1_General_CP1_CI_AS");

Sortowanie jawne w zapytaniu

W niektórych przypadkach ta sama kolumna musi być zapytana przy użyciu różnych porządków w zależności od różnych zapytań. Na przykład jedno zapytanie może wymagać przeprowadzenia porównania z uwzględnieniem wielkości liter w kolumnie, podczas gdy inne zapytanie może wymagać porównania bez uwzględniania wielkości liter w tej samej kolumnie. Można to zrobić, jawnie określając sortowanie w samym zapytaniu:

var customers = await context.Customers
    .Where(c => EF.Functions.Collate(c.Name, "SQL_Latin1_General_CP1_CS_AS") == "John")
    .ToListAsync();

Spowoduje to wygenerowanie COLLATE klauzuli w zapytaniu SQL, która stosuje sortowanie uwzględniające wielkość liter niezależnie od sortowania zdefiniowanego na poziomie kolumny lub bazy danych:

SELECT [c].[Id], [c].[Name]
FROM [Customers] AS [c]
WHERE [c].[Name] COLLATE SQL_Latin1_General_CP1_CS_AS = N'John'

Jawne sortowania i indeksy

Indeksy są jednym z najważniejszych czynników wydajności bazy danych — zapytanie, które działa wydajnie z indeksem, może być zatrzymywane bez tego indeksu. Indeksy niejawnie dziedziczą sortowanie kolumny; Oznacza to, że wszystkie zapytania w kolumnie są automatycznie uprawnione do używania indeksów zdefiniowanych w tej kolumnie — pod warunkiem, że zapytanie nie określa innego sortowania. Określenie jawnego sortowania w zapytaniu zwykle uniemożliwi użycie indeksu zdefiniowanego w tej kolumnie, ponieważ sortowania nie będą już zgodne; Dlatego zaleca się zachowanie ostrożności podczas korzystania z tej funkcji. Zawsze zaleca się zdefiniowanie sortowania na poziomie kolumny (lub bazy danych), dzięki czemu wszystkie zapytania mogą niejawnie używać tego sortowania i korzystać z dowolnego indeksu.

Należy pamiętać, że niektóre bazy danych umożliwiają definiowanie sortowania podczas tworzenia indeksu (np. PostgreSQL, Sqlite). Dzięki temu można zdefiniować wiele indeksów w tej samej kolumnie, przyspieszając operacje z różnymi sortowaniami (np. w porównaniach uwzględniających wielkość liter i bez uwzględniania wielkości liter). Aby uzyskać więcej informacji, zapoznaj się z dokumentacją dostawcy bazy danych.

Ostrzeżenie

Zawsze sprawdzaj plany zapytań zapytań i upewnij się, że odpowiednie indeksy są używane w zapytaniach o krytycznym znaczeniu dla wydajności wykonywanych na dużych ilościach danych. Omięcie rozróżniania wielkości liter w zapytaniu za pośrednictwem metody EF.Functions.Collate (lub przez wywołanie metody string.ToLower) może mieć bardzo znaczący wpływ na wydajność aplikacji.

Tłumaczenie wbudowanych operacji ciągów znaków w .NET

W .NET równość ciągów domyślnie uwzględnia wielkość liter, s1 == s2 wykonuje porównanie porządkowe, które wymaga, aby ciągi były identyczne. Ponieważ domyślne sortowanie baz danych różni się, a użycie indeksów przy prostej równości jest pożądane, program EF Core nie próbuje przekształcać prostej równości na operację uwzględniającą wielkość liter w bazie danych: równość w języku C# jest tłumaczona bezpośrednio na równość w języku SQL, która, w zależności od używanej bazy danych i jej konfiguracji sortowania, może, ale nie musi, uwzględniać wielkości liter.

Ponadto platforma .NET udostępnia przeciążenia string.Equals akceptujące wyliczenia StringComparison, co umożliwia określenie czułości na wielkość liter oraz kultury dla porównania. Zgodnie z projektem program EF Core powstrzymuje się od tłumaczenia tych przeciążeń na język SQL, a próba ich użycia spowoduje wyjątek. W pierwszej kolejności EF Core nie wie, czy należy stosować sortowanie uwzględniające wielkość liter, czy bez uwzględniania wielkości liter. Co ważniejsze, zastosowanie sortowania w większości przypadków uniemożliwia użycie indeksu, co znacząco wpływa na wydajność bardzo podstawowej i powszechnie używanej konstrukcji platformy .NET. Aby wymusić użycie porównania uwzględniającego wielkość liter lub je ignorującego, należy jawnie określić porządek sortowania zgodnie z EF.Functions.Collatepowyższym opisem.

Dodatkowe zasoby

Informacje specyficzne dla bazy danych

Inne zasoby

Spotkanie społeczności danych platformy .NET, dotyczące wprowadzenia sortowań i eksploracji aspektów wydajności i indeksowania.

Opinia

Czy ta strona była pomocna?

Last updated on 2026-03-27

Udostępnij za pośrednictwem

Sortowania i czułość względem wielkości liter

Wprowadzenie do kolacji

Sortowanie bazy danych

Sortowanie kolumn

Sortowanie jawne w zapytaniu

Jawne sortowania i indeksy

Tłumaczenie wbudowanych operacji ciągów znaków w .NET

Dodatkowe zasoby

Informacje specyficzne dla bazy danych

Inne zasoby

Opinia

Dodatkowe zasoby