Der kognitive Skill „Entitätserkennung“ (v3)

Mit der Qualifikation Entitätserkennung (v3) (EntityRecognitionSkill) können Sie Entitäten aus verschiedenen Arten von Text extrahieren. Diese Entitäten sind in 14 verschiedene Kategorien unterteilt: von Personen und Organisationen bis hin zu URLs und Telefonnummern. Bei diesem Skill werden die Machine Learning-Modelle für die Erkennung benannter Entitäten verwendet, die von Azure KI Language bereitgestellt werden.

Hinweis

Dieser Skill ist an Azure KI Services gebunden und erfordert eine abrechenbare Ressource für Transaktionen, die 20 Dokumente pro Indexer und Tag überschreiten. Die Ausführung integrierter Skills wird nach dem bestehenden nutzungsbasierten Preis für Azure KI Services berechnet.

@odata.type

Microsoft.Skills.Text.V3.EntityRecognitionSkill

Datengrenzwerte

Die maximale Größe eines Datensatzes beträgt 50.000 Zeichen (gemessen durch String.Length). Wenn Sie Ihre Daten aufteilen müssen, bevor Sie sie an den Skill „Entitätserkennung“ senden, denken Sie daran, den Skill „Textaufteilung“ zu verwenden. Wenn Sie einen geteilten Skill verwenden, legen Sie die Seitenlänge auf 5000 fest, um die beste Leistung zu erzielen.

Skillparameter

Bei den Parametern, die alle optional sind, wird die Groß-/Kleinschreibung beachtet.

Parametername Beschreibung
categories Array von zu extrahierenden Kategorien. Mögliche Kategorietypen: "Person", "Location", "Organization", "Quantity", "DateTime", "URL", "Email", "personType", "Event", "Product", "Skill", "Address", "phoneNumber" und "ipAddress". Wenn keine Kategorie angegeben ist, werden alle Typen zurückgegeben.
defaultLanguageCode Sprachcode des Eingabetexts. Wenn kein Standardsprachcode festgelegt ist, wird Englisch (en) als Standardsprachcode verwendet.
Siehe die vollständige Liste der unterstützten Sprachen. Nicht alle Entitätskategorien werden für alle Sprachen unterstützt (siehe Anmerkung unten).
minimumPrecision Ein Wert zwischen 0 und 1 ein. Wenn die Zuverlässigkeitsbewertung (in der namedEntities-Ausgabe) unter diesem Wert liegt, wird die Entität nicht zurückgegeben. Der Standardwert ist 0.
modelVersion (Optional) Gibt die Version des Modells an, die beim Aufrufen der Entitätserkennungs-API verwendet werden soll. Wenn nichts angegeben ist, wird standardmäßig die neueste verfügbare Version verwendet. Es wird empfohlen, diesen Wert nur anzugeben, wenn es notwendig ist.

Skilleingaben

Eingabename Beschreibung
languageCode Eine Zeichenfolge, die die Sprache der Datensätze angibt. Wenn dieser Parameter nicht angegeben ist, wird der Standardsprachcode zur Analyse der Datensätze verwendet.
Siehe die vollständige Liste der unterstützten Sprachen.
text Der zu analysierende Text

Skillausgaben

Hinweis

Nicht alle Entitätskategorien werden für alle Sprachen unterstützt. Unter Unterstützte NET-Entitätskategorien (Erkennung benannter Entitäten) erfahren Sie, welche Entitätskategorien für die Sprache unterstützt werden, die Sie verwenden.

Ausgabename Beschreibung
persons Ein Array von Zeichenfolgen, wobei jede Zeichenfolge den Namen einer Person darstellt.
locations Ein Array von Zeichenfolgen, wobei jede Zeichenfolge einen Ort darstellt.
organizations Ein Array von Zeichenfolgen, wobei jede Zeichenfolge eine Organisation darstellt.
quantities Ein Array von Zeichenfolgen, wobei jede Zeichenfolge eine Menge darstellt.
dateTimes Ein Array von Zeichenfolgen, wobei jede Zeichenfolge einen DateTime-Wert darstellt (wie im Text gezeigt).
urls Ein Array von Zeichenfolgen, wobei jede Zeichenfolge eine URL darstellt.
emails Ein Array von Zeichenfolgen, wobei jede Zeichenfolge eine E-Mail-Adresse darstellt.
personTypes Ein Array von Zeichenfolgen, wobei jede Zeichenfolge einen Personentyp darstellt
events Ein Array von Zeichenfolgen, wobei jede Zeichenfolge ein Ereignis darstellt
products Ein Array von Zeichenfolgen, wobei jede Zeichenfolge ein Produkt darstellt
skills Ein Array von Zeichenfolgen, wobei jede Zeichenfolge einen Skill darstellt
addresses Ein Array von Zeichenfolgen, wobei jede Zeichenfolge eine Adresse darstellt
phoneNumbers Ein Array von Zeichenfolgen, wobei jede Zeichenfolge eine Telefonnummer darstellt
ipAddresses Ein Array von Zeichenfolgen, wobei jede Zeichenfolge eine IP-Adresse darstellt
namedEntities Ein Array mit komplexen Typen und den folgenden Feldern:
  • category
  • subcategory
  • confidenceScore (ein höherer Wert für die Konfidenz bedeutet, dass es sich mit höherer Wahrscheinlichkeit um eine echte Entität handelt)
  • length (die Länge (Anzahl von Zeichen) dieser Entität)
  • offset (die Fundstelle im Text)
  • text (der tatsächliche Entitätsname, wie er im Text angezeigt wird)

Beispieldefinition

  {
    "@odata.type": "#Microsoft.Skills.Text.V3.EntityRecognitionSkill",
    "context": "/document",
    "categories": [ "Person", "Email"],
    "defaultLanguageCode": "en", 
    "minimumPrecision": 0.5, 
    "inputs": [
        {
            "name": "text", 
            "source": "/document/content"
        },
        {
            "name": "languageCode", 
            "source": "/document/language"
        }
    ],
    "outputs": [
        {
            "name": "persons", 
            "targetName": "people"
        },
        {
            "name": "emails", 
            "targetName": "emails"
        },
        {
            "name": "namedEntities", 
            "targetName": "namedEntities"
        }
    ]
  }

Beispieleingabe

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Contoso Corporation was founded by Jean Martin. They can be reached at contact@contoso.com",
             "languageCode": "en"
           }
      }
    ]
}

Beispielausgabe

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "people": [ "Jean Martin"],
        "emails":["contact@contoso.com"],
        "namedEntities": 
        [
          {
            "category": "Person",
            "subcategory": null,
            "length": 11,
            "offset": 35,
            "confidenceScore": 0.98,
            "text": "Jean Martin"
          },
          {
            "category": "Email",
            "subcategory": null,
            "length": 19,
            "offset": 71,
            "confidenceScore": 0.8,
            "text": "contact@contoso.com"
          }
        ],
      }
    }
  ]
}

Die für Entitäten in der Ausgabe dieser Qualifikation zurückgegebenen Offsets werden direkt von den Sprachdienst-APIs zurückgegeben. Dies bedeutet, dass Sie, wenn Sie sie zum Indizieren in der ursprünglichen Zeichenfolge verwenden, die StringInfo-Klasse in .NET verwenden müssen, um den richtigen Inhalt zu extrahieren. Weitere Informationen finden Sie unter Mehrsprachige und Emoji-Unterstützung in Sprachdienstfeatures.

Warnungsfälle

Wird der Sprachcode für das Dokument nicht unterstützt, wird eine Warnung zurückgegeben, und es werden keine Entitäten extrahiert.

Siehe auch