Tworzenie indeksu dla wielu języków w usłudze Wyszukiwanie AI platformy Azure

Jeśli masz ciągi w wielu językach, możesz użyć wyszukiwania wektorowego do reprezentowania zawartości wielojęzycznej matematycznie, co jest bardziej nowoczesnym podejściem. Alternatywnie, jeśli nie używasz wektorów, możesz dołączyć analizatory języka analizujące ciągi przy użyciu reguł językowych określonego języka podczas indeksowania i wykonywania zapytań. Dzięki analizatorowi języka można lepiej obsługiwać znaki diakrytyczne, warianty znaków, znaki interpunkcyjne i formy główne wyrazów.

Usługa Wyszukiwanie AI platformy Azure obsługuje analizatory firmy Microsoft i Lucene. Domyślnie wyszukiwarka używa standardowego Lucene, który jest niezależny od języka. Jeśli testowanie wskazuje, że domyślny analizator jest niewystarczający, zastąp go analizatorem języka.

W usłudze Wyszukiwanie AI platformy Azure istnieją dwa wzorce obsługi wielu języków:

Utwórz indeksy specyficzne dla języka, w których cała zawartość czytelna dla człowieka znajduje się w tym samym języku, a wszystkie pola ciągów z możliwością wyszukiwania są przypisywane do używania tego samego analizatora języka.
Utwórz indeks mieszany z wersjami poszczególnych pól specyficznymi dla języka (na przykład description_en, description_fr, description_ko), a następnie ogranicz wyszukiwanie pełnotekstowe tylko do tych pól w czasie zapytania. Takie podejście jest przydatne w scenariuszach, w których warianty języka są potrzebne tylko w kilku polach, takich jak opis.

Ten artykuł koncentruje się na krokach i najlepszych rozwiązaniach dotyczących konfigurowania i wykonywania zapytań dotyczących pól specyficznych dla języka w indeksie mieszanym:

Zdefiniuj pole ciągu dla każdego wariantu języka.
Ustaw analizator języka w każdym polu.
W żądaniu zapytania ustaw parametr searchFields na określone pola, a następnie użyj select , aby zwrócić tylko te pola, które mają zgodną zawartość.

Uwaga

Jeśli używasz dużych modeli językowych w schemacie RAG (wzór rozszerzający pobieranie i generowanie), możesz utworzyć polecenie do zwracania przetłumaczonych ciągów. Ten scenariusz jest poza zakresem tego artykułu.

Wymagania wstępne

Analiza języka ma zastosowanie do pól typu Edm.Stringsearchable, które zawierają zlokalizowany tekst. Jeśli potrzebujesz również tłumaczenia tekstu, przejrzyj następną sekcję, aby sprawdzić, czy wzbogacanie sztucznej inteligencji spełnia Twoje potrzeby.

Pola nieciągalne i pola ciągów, które nie można przeszukiwać, nie są poddawane analizie leksykalnej i nie są tokenizowane. Zamiast tego są one przechowywane i zwracane dosłownie.

Dodawanie tłumaczenia tekstu

W tym artykule założono, że przetłumaczone ciągi już istnieją. Jeśli tak nie jest, możesz dołączyć narzędzia Foundry Tools do potoku wzbogacania, wywołując tłumaczenie tekstu podczas indeksowania. Tłumaczenie tekstu zależy od funkcji indeksatora i narzędzi Foundry Tools, ale cała konfiguracja odbywa się w usłudze Wyszukiwanie AI platformy Azure.

Aby dodać tłumaczenie tekstu, wykonaj następujące kroki:

Sprawdź, czy zawartość znajduje się w obsługiwanym źródle danych.
Utwórz źródło danych wskazujące zawartość.
Utwórz zestaw umiejętności, który obejmuje umiejętności tłumaczenia tekstu.

Umiejętność tłumaczenia tekstu przyjmuje pojedynczy ciąg jako dane wejściowe. Możesz utworzyć zestaw umiejętności, który wielokrotnie wywołuje funkcję tłumaczenia tekstu, raz dla każdego pola, jeśli masz wiele pól. Alternatywnie możesz użyć umiejętności fuzji tekstu, aby skonsolidować zawartość wielu pól w jeden długi ciąg.
Utwórz indeks zawierający pola dla przetłumaczonych ciągów. W większości tego artykułu opisano projektowanie indeksów i definicje pól na potrzeby indeksowania i wykonywania zapytań dotyczących zawartości w wielu językach.
Dołącz zasób rozwiązania Microsoft Foundry do zestawu umiejętności.
Utwórz i uruchom indeksator, a następnie zastosuj wskazówki zawarte w tym artykule, aby wykonać zapytanie tylko o interesujące pola.

Definiowanie pól zawartości w różnych językach

W usłudze Wyszukiwanie AI platformy Azure zapytania są kierowane do pojedynczego indeksu. Deweloperzy, którzy chcą udostępniać ciągi specyficzne dla języka w jednym środowisku wyszukiwania, zazwyczaj definiują dedykowane pola do przechowywania wartości: jedno pole dla ciągów w języku angielskim, jedno dla języka francuskiego itd.

Właściwość analyzer w definicji pola służy do ustawiania analizatora języka. Jest on używany zarówno do indeksowania, jak i wykonywania zapytań.

{
  "name": "hotels-sample",
  "fields": [
    {
      "name": "Description",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "analyzer": "en.microsoft"
    },
    {
      "name": "Description_fr",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "analyzer": "fr.microsoft"
    }
  ]
}

Kompilowanie i ładowanie indeksu

Etap pośredni polega na tworzeniu i wypełnianiu indeksu przed formułowaniem zapytania. Tutaj wspominamy o tym kroku, aby uzyskać kompletność. Jednym ze sposobów określenia dostępności indeksu jest sprawdzenie listy indeksów w portalu.

Ogranicz zapytanie i przytnij wyniki

Parametry zapytania służą do ograniczania wyszukiwania do określonych pól, a następnie przycinania wyników pól, które nie są pomocne w danym scenariuszu.

Parametry	Przeznaczenie
`searchFields`	Ogranicza wyszukiwanie pełnotekstowe do listy nazwanych pól.
`select`	Przytnij odpowiedź, aby uwzględniała tylko te pola, które określisz. Domyślnie zwracane są wszystkie pola, które można pobrać. Parametr `select` umożliwia wybranie tych, które mają być zwracane.

Mając na celu ograniczenie wyszukiwania do pól zawierających ciągi tekstowe w języku francuskim, należy użyć searchFields, aby skierować zapytanie do tych pól zawierających teksty w tym języku.

Określanie analizatora w żądaniu zapytania nie jest konieczne. Analizator języka w definicji pola określa analizę tekstu podczas wykonywania zapytania. W przypadku zapytań, które określają wiele pól, każde z nich korzysta z różnych analizatorów języka, terminy lub frazy są przetwarzane jednocześnie przez przypisane analizatory dla każdego pola.

Domyślnie wyszukiwanie zwraca wszystkie pola oznaczone jako możliwe do pobrania. W związku z tym możesz wykluczyć pola, które nie są zgodne z językowym środowiskiem wyszukiwania, które chcesz zapewnić. W szczególności, jeśli ograniczysz wyszukiwanie do pola z ciągami francuskimi, prawdopodobnie chcesz wykluczyć pola z ciągami angielskimi z wyników. Użycie parametru select zapytania zapewnia kontrolę nad tym, które pola są zwracane do aplikacji wywołującej.

Przykład w architekturze REST

POST https://[service name].search.windows.net/indexes/hotels-sample/docs/search?api-version=2025-09-01
{
    "search": "animaux acceptés",
    "searchFields": "Tags, Description_fr",
    "select": "HotelName, Description_fr, Address/City, Address/StateProvince, Tags",
    "count": "true"
}

Przykład w języku C#

private static void RunQueries(SearchClient srchclient)
{
    SearchOptions options;
    SearchResults<Hotel> response;

    options = new SearchOptions()
    {
        IncludeTotalCount = true,
        Filter = "",
        OrderBy = { "" }
    };

    options.Select.Add("HotelId");
    options.Select.Add("HotelName");
    options.Select.Add("Description_fr");
    options.SearchFields.Add("Tags");
    options.SearchFields.Add("Description_fr");

    response = srchclient.Search<Hotel>("*", options);
    WriteDocuments(response);
}

Zwiększanie pól specyficznych dla języka

Czasami język agenta wykonującego zapytanie nie jest znany, w tym przypadku zapytanie może być wystawiane jednocześnie dla wszystkich pól. Preferencje IA dotyczące wyników w określonym języku można zdefiniować przy użyciu profilów oceniania. W poniższym przykładzie zgodności znalezione w opisie w języku francuskim są oceniane wyżej niż zgodności w innych językach.

  "scoringProfiles": [
    {
      "name": "frenchFirst",
      "text": {
        "weights": { "description_fr": 2 }
      }
    }
  ]

Następnie należy uwzględnić profil oceniania w żądaniu wyszukiwania:

POST /indexes/hotels/docs/search?api-version=2025-09-01
{
  "search": "pets allowed",
  "searchFields": "Tags, Description_fr",
  "select": "HotelName, Tags, Description_fr",
  "scoringProfile": "frenchFirst",
  "count": "true"
}

Następne kroki

Opinia

Czy ta strona była pomocna?

Last updated on 2026-04-30