Umiejętność poznawcza rozpoznawania jednostek nazwanych (wersja 2)

Artykuł
11/15/2023

Umiejętność rozpoznawania nazwanych jednostek (wersja 2) wyodrębnia nazwane jednostki z tekstu. Dostępne jednostki obejmują typy personi locationorganization.

Ważne

Umiejętność rozpoznawania jednostek nazwanych (wersja 2) (Microsoft.Skills.Text.NamedEntityRecognitionSkill) została zastąpiona przez Microsoft.Skills.Text.V3.EntityRecognitionSkill. Postępuj zgodnie z zaleceniami w temacie Przestarzałe umiejętności usługi Azure AI Search, aby przeprowadzić migrację do obsługiwanej umiejętności.

Uwaga

W miarę rozszerzania zakresu przez zwiększenie częstotliwości przetwarzania, dodawanie większej liczby dokumentów lub dodawanie większej liczby algorytmów sztucznej inteligencji należy dołączyć rozliczany zasób usług Azure AI. Opłaty są naliczane podczas wywoływania interfejsów API w usługach AI platformy Azure oraz wyodrębniania obrazów w ramach etapu łamania dokumentów w usłudze Azure AI Search. Za wyodrębnianie tekstu z dokumentów nie są naliczane żadne opłaty. Wykonanie wbudowanych umiejętności jest naliczane za istniejące usługi Azure AI z płatnością zgodnie z rzeczywistym użyciem.

Wyodrębnianie obrazów to dodatkowa opłata mierzona przez usługę Azure AI Search zgodnie z opisem na stronie cennika. Wyodrębnianie tekstu jest bezpłatne.

@odata.type

Microsoft.Skills.Text.NamedEntityRecognitionSkill

Limity danych

Maksymalny rozmiar rekordu powinien wynosić 50 000 znaków mierzonych przez String.Lengthwartość . Jeśli musisz podzielić dane przed wysłaniem ich do modułu wyodrębniania kluczowych fraz, rozważ użycie umiejętności Dzielenie tekstu. Jeśli używasz umiejętności dzielenia tekstu, ustaw długość strony na 5000, aby uzyskać najlepszą wydajność.

Parametry umiejętności

W parametrach jest rozróżniana wielkość liter.

Nazwa parametru	opis
categories	Tablica kategorii, które powinny zostać wyodrębnione. Możliwe typy kategorii: `"Person"`, , `"Organization""Location"`. Jeśli nie podano żadnej kategorii, zwracane są wszystkie typy.
defaultLanguageCode	Kod języka tekstu wejściowego. Obsługiwane są następujące języki: `de, en, es, fr, it`
minimumPrecision	Liczba z zakresu od 0 do 1. Jeśli precyzja jest niższa niż ta wartość, jednostka nie jest zwracana. Wartość domyślna to 0.

Dane wejściowe umiejętności

Nazwa danych wejściowych	opis
languageCode	Opcjonalny. Wartość domyślna to `"en"`.
text	Tekst do przeanalizowania.

Dane wyjściowe umiejętności

Nazwa danych wyjściowych	opis
Osób	Tablica ciągów, w których każdy ciąg reprezentuje nazwę osoby.
locations	Tablica ciągów, w której każdy ciąg reprezentuje lokalizację.
organizations	Tablica ciągów, w których każdy ciąg reprezentuje organizację.
encje	Tablica typów złożonych. Każdy typ złożony zawiera następujące pola: category (`"person"`, `"organization"`, lub `"location"`) wartość (rzeczywista nazwa jednostki) offset (lokalizacja, w której została znaleziona w tekście) confidence (wartość z zakresu od 0 do 1, która reprezentuje pewność, że wartość jest rzeczywistą jednostką)

Przykładowa definicja

  {
    "@odata.type": "#Microsoft.Skills.Text.NamedEntityRecognitionSkill",
    "categories": [ "Person", "Location", "Organization"],
    "defaultLanguageCode": "en",
    "inputs": [
      {
        "name": "text",
        "source": "/document/content"
      }
    ],
    "outputs": [
      {
        "name": "persons",
        "targetName": "people"
      }
    ]
  }

Przykładowe dane wejściowe

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "This is the loan application for Joe Romero, a Microsoft employee who was born in Chile and who then moved to Australia… Ana Smith is provided as a reference.",
             "languageCode": "en"
           }
      }
    ]
}

Przykładowe dane wyjściowe

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "persons": [ "Joe Romero", "Ana Smith"],
        "locations": ["Chile", "Australia"],
        "organizations":["Microsoft"],
        "entities":  
        [
          {
            "category":"person",
            "value": "Joe Romero",
            "offset": 33,
            "confidence": 0.87
          },
          {
            "category":"person",
            "value": "Ana Smith",
            "offset": 124,
            "confidence": 0.87
          },
          {
            "category":"location",
            "value": "Chile",
            "offset": 88,
            "confidence": 0.99
          },
          {
            "category":"location",
            "value": "Australia",
            "offset": 112,
            "confidence": 0.99
          },
          {
            "category":"organization",
            "value": "Microsoft",
            "offset": 54,
            "confidence": 0.99
          }
        ]
      }
    }
  ]
}

Przypadki ostrzegawcze

Jeśli kod języka dokumentu nie jest obsługiwany, zwracane jest ostrzeżenie i nie są wyodrębniane żadne jednostki.

Share via