Was ist die benutzerdefinierte benannte Entitätserkennung?

Die benutzerdefinierte benannte Entitätserkennung (NER) ist eines der benutzerdefinierten Features, die in Azure KI Language angeboten werden. Es handelt sich um einen cloudbasierten API-Dienst, der Machine Learning-Intelligenz anwendet, um Ihnen die Erstellung benutzerdefinierter Modelle für benutzerdefinierte NER-Aufgaben zu ermöglichen.

Mit der benutzerdefinierten NER können Benutzer*innen benutzerdefinierte KI-Modelle erstellen, um domänenspezifische Entitäten aus unstrukturierten Texten wie Verträgen oder Finanzdokumenten zu extrahieren. Durch das Erstellen eines Projekts für die benutzerdefinierte NER können Entwickler Daten iterativ bezeichnen, trainieren und auswerten sowie die Modellleistung verbessern, bevor sie für die Nutzung verfügbar gemacht werden. Die Qualität der bezeichneten Daten wirkt sich erheblich auf die Modellleistung aus. Um das Erstellen und Anpassen Ihres Modells zu vereinfachen, steht im Dienst ein benutzerdefiniertes Webportal zur Verfügung, auf das über Language Studio zugegriffen werden kann. Sie können problemlos erste Schritte mit dem Dienst ausführen, indem Sie diese Schnellstartanleitung befolgen.

Diese Dokumentation enthält die folgenden Arten von Artikeln:

  • Schnellstarts sind Anleitungen zu den ersten Schritten, die Sie durch das Senden von Anforderungen an den Dienst führen.
  • Die Artikel zu Konzepten enthalten Erläuterungen der Dienstfunktionen und -features.
  • Anleitungen enthalten Anweisungen zur spezifischeren oder individuelleren Verwendung des Diensts.

Beispiele für Nutzungsszenarien

Die benutzerdefinierte benannte Entitätserkennung kann in verschiedenen Szenarios in einer Vielzahl von Branchen verwendet werden:

Informationsextraktion

Zahlreiche Finanz- und Rechtsorganisationen extrahieren und normalisieren täglich Daten aus Tausenden von komplexen unstrukturierten Texten. Solche Quellen umfassen Bankauszüge, rechtliche Vereinbarungen und Bankformulare. So kann beispielsweise die manuelle Extraktion von Hypothekenantragsdaten durch menschliche Prüfer*innen mehrere Tage dauern. Durch die Automatisierung dieser Schritte vereinfacht das Erstellen eines benutzerdefinierten NER-Modells diesen Prozess und spart Kosten, Zeit und Aufwand.

Search dient als wichtige Grundlage für jede App, in der Textinhalte für Benutzer*innen angezeigt werden. Häufige Szenarios sind die Katalog- oder Dokumentsuche, die Suche nach Einzelhandelsprodukten oder das Knowledge Mining für Data Science. Viele Unternehmen aus verschiedenen Branchen möchten eine umfangreiche Suchumgebung für private, heterogene Inhalte erstellen, die sowohl strukturierte als auch unstrukturierte Dokumente umfassen. Als Teil ihrer Pipeline können Entwickler*innen die benutzerdefinierte NER verwenden, um Entitäten aus den Texten zu extrahieren, die für ihre Branche relevant sind. Diese Entitäten können verwendet werden, um die Indizierung der Datei für eine individuellere Suchfunktion zu verbessern.

Überwachung und Compliance

Anstatt umfangreiche Textdateien manuell zu überprüfen, um Richtlinien zu überwachen und anzuwenden, können IT-Abteilungen in Finanz- oder Rechtsunternehmen die benutzerdefinierte Erkennung benannter Entitäten verwenden, um automatisierte Lösungen zu erstellen. Diese Lösungen können hilfreich sein, um Compliancerichtlinien durchzusetzen und notwendige Geschäftsregeln auf der Grundlage von Knowledge Mining-Pipelines festzulegen, die strukturierte und unstrukturierte Inhalte verarbeiten.

Lebenszyklus der Projektentwicklung

Die Verwendung von benutzerdefinierter NER umfasst in der Regel mehrere Schritte.

Lebenszyklus der Entwicklung

  1. Definieren des Schemas: Sie müssen Ihre Daten kennen und die Entitäten identifizieren, die Sie extrahieren möchten. Vermeiden Sie Mehrdeutigkeit.

  2. Bezeichnen von Daten: Die Datenbezeichnung ist ein wichtiger Faktor beim Ermitteln der Modellleistung. Achten Sie auf eine präzise, konsistente und vollständige Bezeichnung.

    1. Genaue Bezeichnungen: Beschriften Sie jede Entität immer mit ihrem richtigen Typ. Schließen Sie nur das ein, was Sie extrahieren möchten, und vermeiden Sie unnötige Daten in Ihren Bezeichnungen.
    2. Konsistente Bezeichnungen: Die gleiche Entität sollte in allen Dateien die gleiche Bezeichnung haben.
    3. Vollständige Bezeichnungen: Beschriften Sie alle Instanzen der Entität in allen Dateien.
  3. Trainieren des Modells: Ihr Modell beginnt mit dem Lernen auf der Grundlage der bezeichneten Daten.

  4. Anzeigen der Modellleistung: Zeigen Sie nach Abschluss des Trainings die Auswertungsdetails, die Leistung des Modells und eine Anleitung zur Verbesserung an.

  5. Bereitstellen des Modells: Durch die Bereitstellung eines Modells wird dieses zur Verwendung über die Analyse-API zur Verfügung gestellt.

  6. Extrahieren von Entitäten: Verwenden Sie Ihre benutzerdefinierten Modelle für Entitätsextraktionsaufgaben.

Referenzdokumentation und Codebeispiele

Wenn Sie die benutzerdefinierte NER verwenden, lesen Sie die folgende Referenzdokumentation und die Beispiele für Azure KI Language:

Entwicklungsoption/Sprache Referenzdokumentation Beispiele
REST-APIs (Dokumenterstellung) REST-API-Dokumentation
REST-APIs (Runtime) REST-API-Dokumentation
C# (Runtime) C#-Dokumentation Beispiele für C#
Java (Runtime) Java-Dokumentation Java-Beispiele
JavaScript (Runtime) JavaScript-Dokumentation JavaScript samples (JavaScript-Beispiele)
Python (Runtime) Python-Dokumentation Python-Beispiele

Verantwortungsbewusste künstliche Intelligenz

Ein KI-System umfasst nicht nur die Technologie, sondern auch die Personen, die das System verwenden, die davon betroffenen Personen und die Umgebung, in der es bereitgestellt wird. Weitere Informationen zur verantwortungsbewussten Verwendung und Bereitstellung von KI in Ihren Systemen finden Sie im Transparenzhinweis für die benutzerdefinierte NER. Weitere Informationen finden Sie auch in den folgenden Artikeln:

Nächste Schritte

  • Informationen zur Verwendung der benutzerdefinierten Erkennung benannter Entitäten finden Sie in dieser Schnellstartanleitung.

  • Lesen Sie beim Durchlaufen des Lebenszyklus der Projektentwicklung das Glossar, um mehr über die Begriffe zu erfahren, die in der Dokumentation für dieses Feature verwendet werden.

  • Informationen zu Aspekten wie regionale Verfügbarkeit finden Sie in den Diensteinschränkungen.