Jak używać wykrywania języka

Artykuł
12/19/2023

Funkcja wykrywania języka może oceniać tekst i zwracać identyfikator języka wskazujący język, w jakim został napisany dokument.

Wykrywanie języka jest przydatne w przypadku magazynów zawartości, które zbierają dowolny tekst, gdzie język jest nieznany. Wyniki analizy możesz przeanalizować w celu ustalenia, który język jest używany w wejściowym dokumencie. Odpowiedź zwraca również wynik z zakresu od 0 do 1, który odzwierciedla pewność modelu.

Funkcja wykrywania języka może wykrywać szeroką gamę języków, wariantów, dialektów i niektórych języków regionalnych lub kulturowych.

Opcje programowania

Aby użyć wykrywania języka, przesyłasz nieprzetworzone tekst bez struktury do analizy i obsługujesz dane wyjściowe interfejsu API w aplikacji. Analiza jest wykonywana w miarę potrzeb, bez dodatkowego dostosowania modelu używanego na danych. Istnieją dwa sposoby korzystania z wykrywania języka:

Opcja programowania	Opis
Studio językowe	Language Studio to platforma internetowa, która umożliwia wypróbowanie łączenia jednostek z przykładami tekstowymi bez konta platformy Azure i własnych danych podczas rejestracji. Aby uzyskać więcej informacji, zobacz witrynę internetową language Studio lub przewodnik Szybki start dla programu Language Studio.
Interfejs API REST lub biblioteka klienta (zestaw Azure SDK)	Integrowanie wykrywania języka z aplikacjami przy użyciu interfejsu API REST lub biblioteki klienta dostępnej w różnych językach. Aby uzyskać więcej informacji, zobacz przewodnik Szybki start dotyczący wykrywania języka.
Kontener platformy Docker	Użyj dostępnego kontenera platformy Docker, aby wdrożyć tę funkcję lokalnie. Te kontenery platformy Docker umożliwiają przybliżenie usługi do danych ze względów zgodności, zabezpieczeń lub innych powodów operacyjnych.

Określanie sposobu przetwarzania danych (opcjonalnie)

Określanie modelu wykrywania języka

Domyślnie wykrywanie języka będzie używać najnowszego dostępnego modelu sztucznej inteligencji w tekście. Możesz również skonfigurować żądania interfejsu API tak, aby używały określonej wersji modelu.

Języki wejściowe

Po przesłaniu dokumentów do oceny wykrywanie języka podejmie próbę określenia, czy tekst został napisany w dowolnym z obsługiwanych języków.

Jeśli masz zawartość wyrażoną w rzadziej używanym języku, możesz wypróbować funkcję wykrywania języka, aby sprawdzić, czy zwraca kod. Odpowiedzią dla języków, których nie można wykryć, jest unknown.

Przesyłanie danych

Porada

Do wykrywania języka można użyć kontenera platformy Docker, aby użyć lokalnego interfejsu API.

Analiza jest wykonywana po odebraniu żądania. Korzystanie z funkcji wykrywania języka synchronicznie jest bezstanowe. Żadne dane nie są przechowywane na Twoim koncie, a wyniki są zwracane natychmiast w odpowiedzi.

W przypadku korzystania z tej funkcji asynchronicznie wyniki interfejsu API są dostępne przez 24 godziny od momentu pozyskiwania żądania i są wskazywane w odpowiedzi. Po tym okresie wyniki są czyszczone i nie są już dostępne do pobierania.

Uzyskiwanie wyników wykrywania języka

Po otrzymaniu wyników z wykrywania języka można przesyłać strumieniowo wyniki do aplikacji lub zapisywać dane wyjściowe w pliku w systemie lokalnym.

Wykrywanie języka zwróci jeden dominujący język dla każdego przesyłanego dokumentu, wraz z nazwą ISO 639-1 , nazwą czytelną dla człowieka i współczynnikiem ufności. Wynik dodatni 1 wskazuje najwyższy możliwy poziom ufności analizy.

Zawartość niejednoznaczna

W niektórych przypadkach może być trudno uściślać języki na podstawie danych wejściowych. Możesz użyć parametru countryHint , aby określić kod kraju/regionu ISO 3166-1 alfa-2 . Domyślnie interfejs API używa wartości "US" jako domyślnej wskazówki dotyczącej kraju. Aby usunąć to zachowanie, możesz zresetować ten parametr, ustawiając tę wartość na pusty ciąg countryHint = "" .

Na przykład "komunikacja" jest powszechna zarówno dla języka angielskiego, jak i francuskiego, a jeśli zostanie podana z ograniczonym kontekstem, odpowiedź będzie oparta na wskazówce dotyczącej kraju/regionu "USA". Jeśli wiadomo, że tekst pochodzi z Francji, można podać to we wskazówce.

Dane wejściowe

{
    "documents": [
        {
            "id": "1",
            "text": "communication"
        },
        {
            "id": "2",
            "text": "communication",
            "countryHint": "fr"
        }
    ]
}

Model wykrywania języka ma teraz dodatkowy kontekst, aby lepiej oceniać:

Dane wyjściowe

{
    "documents":[
        {
            "detectedLanguage":{
                "confidenceScore":0.62,
                "iso6391Name":"en",
                "name":"English"
            },
            "id":"1",
            "warnings":[
                
            ]
        },
        {
            "detectedLanguage":{
                "confidenceScore":1.0,
                "iso6391Name":"fr",
                "name":"French"
            },
            "id":"2",
            "warnings":[
                
            ]
        }
    ],
    "errors":[
        
    ],
    "modelVersion":"2022-10-01"
}

Jeśli analizator nie może przeanalizować danych wejściowych, zwraca wartość (Unknown). Przykładem może być przesłanie ciągu tekstowego składającego się wyłącznie z liczb.

{
    "documents": [
        {
            "id": "1",
            "detectedLanguage": {
                "name": "(Unknown)",
                "iso6391Name": "(Unknown)",
                "confidenceScore": 0.0
            },
            "warnings": []
        }
    ],
    "errors": [],
    "modelVersion": "2021-01-05"
}

Zawartość w języku mieszanym

Zawartość w języku mieszanym w tym samym dokumencie zwraca język o największej reprezentacji w zawartości, ale z niższą pozytywną oceną. Ocena odzwierciedla marginalną siłę oceny. W następującym przykładzie dane wejściowe stanowią mieszankę języków angielskiego, hiszpańskiego i francuskiego. Analizator zlicza znaki w każdym segmencie w celu ustalenia dominującego języka.