Jak używać wykrywania języka
Funkcja wykrywania języka może oceniać tekst i zwracać identyfikator języka wskazujący język, w jakim został napisany dokument.
Wykrywanie języka jest przydatne w przypadku magazynów zawartości, które zbierają dowolny tekst, gdzie język jest nieznany. Wyniki analizy możesz przeanalizować w celu ustalenia, który język jest używany w wejściowym dokumencie. Odpowiedź zwraca również wynik z zakresu od 0 do 1, który odzwierciedla pewność modelu.
Funkcja wykrywania języka może wykrywać szeroką gamę języków, wariantów, dialektów i niektórych języków regionalnych lub kulturowych.
Opcje programowania
Aby użyć wykrywania języka, przesyłasz nieprzetworzone tekst bez struktury do analizy i obsługujesz dane wyjściowe interfejsu API w aplikacji. Analiza jest wykonywana w miarę potrzeb, bez dodatkowego dostosowania modelu używanego na danych. Istnieją dwa sposoby korzystania z wykrywania języka:
Opcja programowania | Opis |
---|---|
Studio językowe | Language Studio to platforma internetowa, która umożliwia wypróbowanie łączenia jednostek z przykładami tekstowymi bez konta platformy Azure i własnych danych podczas rejestracji. Aby uzyskać więcej informacji, zobacz witrynę internetową language Studio lub przewodnik Szybki start dla programu Language Studio. |
Interfejs API REST lub biblioteka klienta (zestaw Azure SDK) | Integrowanie wykrywania języka z aplikacjami przy użyciu interfejsu API REST lub biblioteki klienta dostępnej w różnych językach. Aby uzyskać więcej informacji, zobacz przewodnik Szybki start dotyczący wykrywania języka. |
Kontener platformy Docker | Użyj dostępnego kontenera platformy Docker, aby wdrożyć tę funkcję lokalnie. Te kontenery platformy Docker umożliwiają przybliżenie usługi do danych ze względów zgodności, zabezpieczeń lub innych powodów operacyjnych. |
Określanie sposobu przetwarzania danych (opcjonalnie)
Określanie modelu wykrywania języka
Domyślnie wykrywanie języka będzie używać najnowszego dostępnego modelu sztucznej inteligencji w tekście. Możesz również skonfigurować żądania interfejsu API tak, aby używały określonej wersji modelu.
Języki wejściowe
Po przesłaniu dokumentów do oceny wykrywanie języka podejmie próbę określenia, czy tekst został napisany w dowolnym z obsługiwanych języków.
Jeśli masz zawartość wyrażoną w rzadziej używanym języku, możesz wypróbować funkcję wykrywania języka, aby sprawdzić, czy zwraca kod. Odpowiedzią dla języków, których nie można wykryć, jest unknown
.
Przesyłanie danych
Porada
Do wykrywania języka można użyć kontenera platformy Docker, aby użyć lokalnego interfejsu API.
Analiza jest wykonywana po odebraniu żądania. Korzystanie z funkcji wykrywania języka synchronicznie jest bezstanowe. Żadne dane nie są przechowywane na Twoim koncie, a wyniki są zwracane natychmiast w odpowiedzi.
W przypadku korzystania z tej funkcji asynchronicznie wyniki interfejsu API są dostępne przez 24 godziny od momentu pozyskiwania żądania i są wskazywane w odpowiedzi. Po tym okresie wyniki są czyszczone i nie są już dostępne do pobierania.
Uzyskiwanie wyników wykrywania języka
Po otrzymaniu wyników z wykrywania języka można przesyłać strumieniowo wyniki do aplikacji lub zapisywać dane wyjściowe w pliku w systemie lokalnym.
Wykrywanie języka zwróci jeden dominujący język dla każdego przesyłanego dokumentu, wraz z nazwą ISO 639-1 , nazwą czytelną dla człowieka i współczynnikiem ufności. Wynik dodatni 1 wskazuje najwyższy możliwy poziom ufności analizy.
Zawartość niejednoznaczna
W niektórych przypadkach może być trudno uściślać języki na podstawie danych wejściowych. Możesz użyć parametru countryHint
, aby określić kod kraju/regionu ISO 3166-1 alfa-2 . Domyślnie interfejs API używa wartości "US" jako domyślnej wskazówki dotyczącej kraju. Aby usunąć to zachowanie, możesz zresetować ten parametr, ustawiając tę wartość na pusty ciąg countryHint = ""
.
Na przykład "komunikacja" jest powszechna zarówno dla języka angielskiego, jak i francuskiego, a jeśli zostanie podana z ograniczonym kontekstem, odpowiedź będzie oparta na wskazówce dotyczącej kraju/regionu "USA". Jeśli wiadomo, że tekst pochodzi z Francji, można podać to we wskazówce.
Dane wejściowe
{
"documents": [
{
"id": "1",
"text": "communication"
},
{
"id": "2",
"text": "communication",
"countryHint": "fr"
}
]
}
Model wykrywania języka ma teraz dodatkowy kontekst, aby lepiej oceniać:
Dane wyjściowe
{
"documents":[
{
"detectedLanguage":{
"confidenceScore":0.62,
"iso6391Name":"en",
"name":"English"
},
"id":"1",
"warnings":[
]
},
{
"detectedLanguage":{
"confidenceScore":1.0,
"iso6391Name":"fr",
"name":"French"
},
"id":"2",
"warnings":[
]
}
],
"errors":[
],
"modelVersion":"2022-10-01"
}
Jeśli analizator nie może przeanalizować danych wejściowych, zwraca wartość (Unknown)
. Przykładem może być przesłanie ciągu tekstowego składającego się wyłącznie z liczb.
{
"documents": [
{
"id": "1",
"detectedLanguage": {
"name": "(Unknown)",
"iso6391Name": "(Unknown)",
"confidenceScore": 0.0
},
"warnings": []
}
],
"errors": [],
"modelVersion": "2021-01-05"
}
Zawartość w języku mieszanym
Zawartość w języku mieszanym w tym samym dokumencie zwraca język o największej reprezentacji w zawartości, ale z niższą pozytywną oceną. Ocena odzwierciedla marginalną siłę oceny. W następującym przykładzie dane wejściowe stanowią mieszankę języków angielskiego, hiszpańskiego i francuskiego. Analizator zlicza znaki w każdym segmencie w celu ustalenia dominującego języka.
Dane wejściowe
{
"documents": [
{
"id": "1",
"text": "Hello, I would like to take a class at your University. ¿Se ofrecen clases en español? Es mi primera lengua y más fácil para escribir. Que diriez-vous des cours en français?"
}
]
}
Dane wyjściowe
Wynikowe dane wyjściowe składają się z dominującego języka z wynikiem mniejszym niż 1,0, co oznacza słabszy poziom ufności.
{
"documents": [
{
"id": "1",
"detectedLanguage": {
"name": "Spanish",
"iso6391Name": "es",
"confidenceScore": 0.88
},
"warnings": []
}
],
"errors": [],
"modelVersion": "2021-01-05"
}
Limity usług i danych
Aby uzyskać informacje na temat rozmiaru i liczby żądań, które można wysłać na minutę i sekundę, zobacz artykuł dotyczący limitów usług .