Der kognitive Skill „Entitätserkennung“ (v3)

Artikel
09/01/2024

Mit der Qualifikation Entitätserkennung (v3) (EntityRecognitionSkill) können Sie Entitäten aus verschiedenen Arten von Text extrahieren. Diese Entitäten sind in 14 verschiedene Kategorien unterteilt: von Personen und Organisationen bis hin zu URLs und Telefonnummern. Bei diesem Skill werden die Machine Learning-Modelle für die Erkennung benannter Entitäten verwendet, die von Azure KI Language bereitgestellt werden.

Hinweis

Dieser Skill ist an Azure KI Services gebunden und erfordert eine abrechenbare Ressource für Transaktionen, die 20 Dokumente pro Indexer und Tag überschreiten. Die Ausführung integrierter Skills wird nach dem bestehenden nutzungsbasierten Preis für Azure KI Services berechnet.

@odata.type

Microsoft.Skills.Text.V3.EntityRecognitionSkill

Datengrenzwerte

Die maximale Größe eines Datensatzes beträgt 50.000 Zeichen (gemessen durch String.Length). Wenn Sie Ihre Daten aufteilen müssen, bevor Sie sie an den Skill „Entitätserkennung“ senden, denken Sie daran, den Skill „Textaufteilung“ zu verwenden. Wenn Sie einen geteilten Skill verwenden, legen Sie die Seitenlänge auf 5000 fest, um die beste Leistung zu erzielen.

Skillparameter

Bei den Parametern, die alle optional sind, wird die Groß-/Kleinschreibung beachtet.

Parametername	Beschreibung
`categories`	Array von zu extrahierenden Kategorien. Mögliche Kategorietypen: `"Person"`, `"Location"`, `"Organization"`, `"Quantity"`, `"DateTime"`, `"URL"`, `"Email"`, `"personType"`, `"Event"`, `"Product"`, `"Skill"`, `"Address"`, `"phoneNumber"` und `"ipAddress"`. Wenn keine Kategorie angegeben ist, werden alle Typen zurückgegeben.
`defaultLanguageCode`	Sprachcode des Eingabetexts. Wenn kein Standardsprachcode festgelegt ist, wird Englisch (en) als Standardsprachcode verwendet. Siehe die vollständige Liste der unterstützten Sprachen. Nicht alle Entitätskategorien werden für alle Sprachen unterstützt (siehe Anmerkung unten).
`minimumPrecision`	Ein Wert zwischen 0 und 1 ein. Wenn die Zuverlässigkeitsbewertung (in der `namedEntities`-Ausgabe) unter diesem Wert liegt, wird die Entität nicht zurückgegeben. Der Standardwert ist 0.
`modelVersion`	(Optional) Gibt die Version des Modells an, die beim Aufrufen der Entitätserkennungs-API verwendet werden soll. Wenn nichts angegeben ist, wird standardmäßig die neueste verfügbare Version verwendet. Es wird empfohlen, diesen Wert nur anzugeben, wenn es notwendig ist.

Skilleingaben

Eingabename	Beschreibung
`languageCode`	Eine Zeichenfolge, die die Sprache der Datensätze angibt. Wenn dieser Parameter nicht angegeben ist, wird der Standardsprachcode zur Analyse der Datensätze verwendet. Siehe die vollständige Liste der unterstützten Sprachen.
`text`	Der zu analysierende Text

Skillausgaben

Hinweis

Nicht alle Entitätskategorien werden für alle Sprachen unterstützt. Unter Unterstützte NET-Entitätskategorien (Erkennung benannter Entitäten) erfahren Sie, welche Entitätskategorien für die Sprache unterstützt werden, die Sie verwenden.

Ausgabename	Beschreibung
`persons`	Ein Array von Zeichenfolgen, wobei jede Zeichenfolge den Namen einer Person darstellt.
`locations`	Ein Array von Zeichenfolgen, wobei jede Zeichenfolge einen Ort darstellt.
`organizations`	Ein Array von Zeichenfolgen, wobei jede Zeichenfolge eine Organisation darstellt.
`quantities`	Ein Array von Zeichenfolgen, wobei jede Zeichenfolge eine Menge darstellt.
`dateTimes`	Ein Array von Zeichenfolgen, wobei jede Zeichenfolge einen DateTime-Wert darstellt (wie im Text gezeigt).
`urls`	Ein Array von Zeichenfolgen, wobei jede Zeichenfolge eine URL darstellt.
`emails`	Ein Array von Zeichenfolgen, wobei jede Zeichenfolge eine E-Mail-Adresse darstellt.
`personTypes`	Ein Array von Zeichenfolgen, wobei jede Zeichenfolge einen Personentyp darstellt
`events`	Ein Array von Zeichenfolgen, wobei jede Zeichenfolge ein Ereignis darstellt
`products`	Ein Array von Zeichenfolgen, wobei jede Zeichenfolge ein Produkt darstellt
`skills`	Ein Array von Zeichenfolgen, wobei jede Zeichenfolge einen Skill darstellt
`addresses`	Ein Array von Zeichenfolgen, wobei jede Zeichenfolge eine Adresse darstellt
`phoneNumbers`	Ein Array von Zeichenfolgen, wobei jede Zeichenfolge eine Telefonnummer darstellt
`ipAddresses`	Ein Array von Zeichenfolgen, wobei jede Zeichenfolge eine IP-Adresse darstellt
`namedEntities`	Ein Array mit komplexen Typen und den folgenden Feldern: category subcategory confidenceScore (ein höherer Wert für die Konfidenz bedeutet, dass es sich mit höherer Wahrscheinlichkeit um eine echte Entität handelt) length (die Länge (Anzahl von Zeichen) dieser Entität) offset (die Fundstelle im Text) text (der tatsächliche Entitätsname, wie er im Text angezeigt wird)

Beispieldefinition

  {
    "@odata.type": "#Microsoft.Skills.Text.V3.EntityRecognitionSkill",
    "context": "/document",
    "categories": [ "Person", "Email"],
    "defaultLanguageCode": "en", 
    "minimumPrecision": 0.5, 
    "inputs": [
        {
            "name": "text", 
            "source": "/document/content"
        },
        {
            "name": "languageCode", 
            "source": "/document/language"
        }
    ],
    "outputs": [
        {
            "name": "persons", 
            "targetName": "people"
        },
        {
            "name": "emails", 
            "targetName": "emails"
        },
        {
            "name": "namedEntities", 
            "targetName": "namedEntities"
        }
    ]
  }

Beispieleingabe

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Contoso Corporation was founded by Jean Martin. They can be reached at contact@contoso.com",
             "languageCode": "en"
           }
      }
    ]
}

Beispielausgabe

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "people": [ "Jean Martin"],
        "emails":["contact@contoso.com"],
        "namedEntities": 
        [
          {
            "category": "Person",
            "subcategory": null,
            "length": 11,
            "offset": 35,
            "confidenceScore": 0.98,
            "text": "Jean Martin"
          },
          {
            "category": "Email",
            "subcategory": null,
            "length": 19,
            "offset": 71,
            "confidenceScore": 0.8,
            "text": "contact@contoso.com"
          }
        ],
      }
    }
  ]
}

Die für Entitäten in der Ausgabe dieser Qualifikation zurückgegebenen Offsets werden direkt von den Sprachdienst-APIs zurückgegeben. Dies bedeutet, dass Sie, wenn Sie sie zum Indizieren in der ursprünglichen Zeichenfolge verwenden, die StringInfo-Klasse in .NET verwenden müssen, um den richtigen Inhalt zu extrahieren. Weitere Informationen finden Sie unter Mehrsprachige und Emoji-Unterstützung in Sprachdienstfeatures.

Warnungsfälle

Wird der Sprachcode für das Dokument nicht unterstützt, wird eine Warnung zurückgegeben, und es werden keine Entitäten extrahiert.

Freigeben über