Was ist die Erkennung personenbezogener Informationen (Personally Identifiable Information, PII) in Azure KI Language?

Die Erkennung personenbezogener Informationen ist ein Feature von Azure KI Language. Dabei handelt es sich um eine Sammlung von Algorithmen für maschinelles Lernen und KI in der Cloud für die Entwicklung intelligenter Anwendungen, die geschriebene Sprache beinhalten. Die PII-Erkennungsfunktion kann vertrauliche Informationen in unstrukturiertem Text identifizieren, kategorisieren und unkenntlich machen. Beispiele: Telefonnummern, E-Mail-Adressen und Identifikationsdaten. Die Methode für die Verwendung von personenbezogenen Informationen in Unterhaltungen unterscheidet sich von anderen Anwendungsfällen, und Artikel für diese Verwendung sind getrennt.

  • Schnellstarts sind Anleitungen zu den ersten Schritten, die Sie durch das Senden von Anforderungen an den Dienst führen.
  • Schrittanleitungen enthalten Anweisungen zur spezifischeren oder individuelleren Verwendung des Diensts.
  • Die Konzeptartikel enthalten ausführliche Beschreibungen der Funktionen und Features des jeweiligen Diensts.

Es gibt zwei Formen von PII:

  • PII – in Bezug auf unstrukturierten Text.
  • Conversation PII (Vorschau) – maßgeschneidertes Modell für die Arbeit an Unterhaltungstranskription.

Typischer Workflow

Um dieses Feature zu verwenden, übermitteln Sie Daten zur Analyse und verarbeiten die API-Ausgabe in Ihrer Anwendung. Die Analyse wird ohne zusätzliche Anpassung des Modells durchgeführt, das für Ihre Daten verwendet wird.

  1. Erstellen Sie eine Azure KI Language-Ressource, die Ihnen den Zugriff auf die Features von Azure KI Language ermöglicht. Hierbei werden ein Kennwort (als „Schlüssel“ bezeichnet) und eine Endpunkt-URL generiert, die Sie zum Authentifizieren von API-Anforderungen verwenden können.

  2. Erstellen Sie eine Anforderung, indem Sie entweder die REST-API oder die Clientbibliothek für C#, Java, JavaScript oder Python verwenden. Sie können auch asynchrone Aufrufe per Batchanforderung senden, um API-Anforderungen für mehrere Features in einem gemeinsamen Aufruf zu kombinieren.

  3. Senden Sie die Anforderung, die Ihre Textdaten enthält. Ihr Schlüssel und Endpunkt werden für die Authentifizierung verwendet.

  4. Streamen oder speichern Sie die Antwort lokal.

Unterstützung von nativen Dokumenten

Ein natives Dokument bezieht sich auf das Dateiformat, das zur Erstellung des Originaldokuments verwendet wurde, z. B. Microsoft Word (docx) oder eine portierbare Dokumentdatei (pdf). Durch die Unterstützung nativer Dokumente ist vor der Nutzung von Azure KI Language-Ressourcen keine Textvorverarbeitung mehr erforderlich. Derzeit steht die Unterstützung nativer Dokumente für die Funktion PiiEntityRecognition zur Verfügung.

Derzeit unterstützt Personenbezogene Informationen die folgenden nativen Dokumentformate:

Dateityp Dateierweiterung Beschreibung
Text .txt Ein unformatiertes Textdokument.
Adobe PDF .pdf Ein als portierbare Dokumentdatei formatiertes Dokument.
Microsoft Word .docx Eine Microsoft Word-Dokumentdatei.

Weitere Informationen finden Sie unterVerwenden nativer Dokumente für die Sprachverarbeitung.

Erste Schritte mit der Erkennung personenbezogener Informationen

Zur Verwendung der Erkennung personenbezogener Informationen übermitteln Sie Text zur Analyse und verarbeiten die API-Ausgabe in Ihrer Anwendung. Die Analyse wird ohne Anpassung des Modells durchgeführt, das für Ihre Daten verwendet wird. Es gibt zwei Möglichkeiten, die Erkennung personenbezogener Informationen zu nutzen:

Entwicklungsoption BESCHREIBUNG
Language Studio Language Studio ist eine webbasierte Plattform, mit der Sie ohne Azure-Konto und mit Ihren eigenen Daten die Verknüpfung von Entitäten mit Textbeispielen ausprobieren können, wenn Sie sich registrieren. Weitere Informationen finden Sie auf der Language Studio-Website oder im Language Studio-Schnellstart.
REST-API oder Clientbibliothek (Azure SDK) Integrieren Sie die Erkennung personenbezogener Informationen mithilfe der REST-API oder der Clientbibliothek, die in zahlreichen Sprachen verfügbar ist, in Ihre Anwendungen. Weitere Informationen finden Sie im Schnellstart zur Erkennung personenbezogener Informationen.

Referenzdokumentation und Codebeispiele

Wenn Sie dieses Feature in Ihren Anwendungen verwenden, lesen Sie die folgende Referenzdokumentation und die Beispiele für Azure KI Language:

Entwicklungsoption/Sprache Referenzdokumentation Beispiele
REST-API REST-API-Dokumentation
C# C#-Dokumentation Beispiele für C#
Java Java-Dokumentation Java-Beispiele
JavaScript JavaScript-Dokumentation JavaScript samples (JavaScript-Beispiele)
Python Python-Dokumentation Python-Beispiele

Verantwortungsbewusste künstliche Intelligenz

Zu einem KI-System gehört nicht nur die Technologie, sondern auch die Personen, die es verwenden, die davon betroffenen Personen und die Bereitstellungsumgebung. Weitere Informationen zur verantwortungsbewussten Verwendung und Bereitstellung von KI in Ihren Systemen finden Sie unter dem Transparenzhinweis für personenbezogene Informationen. Weitere Informationen finden Sie in den folgenden Artikeln:

Beispielszenarien

  • Nutzen Sie Kennzeichen für Vertraulichkeitsstufen – Abhängig von den Ergebnissen des PII-Dienstes kann beispielsweise die Vertraulichkeitsbezeichnung „öffentlich“ auf Dokumente angewandt werden, in denen keine PII-Entitäten erkannt werden. Für Dokumente, bei denen US-Adressen und Telefonnummern erkannt werden, kann z.B. die Bezeichnung „vertraulich“ verwendet werden. Die Bezeichnung „streng vertraulich“ kann für Dokumente verwendet werden, in denen Bankleitzahlen erkannt werden.
  • Persönliche Daten in Dokumenten unkenntlich machen, die eine größere Verbreitung finden – Wenn beispielsweise Kundenkontaktdaten für Mitarbeitende des Support in Service und Produktion zugänglich sind,kann das Unternehmen alle persönlichen Daten von Kund*innen außer des Namens aus der Version der Kundenhistorie entfernen, um deren Privatsphäre zu schützen.
  • Persönliche Informationen unkenntlich machen, um unbewusste Vorurteile zu vermeiden – Beispielsweise kann ein Unternehmen während der Überprüfung des Lebenslaufs Name, Adresse und Telefonnummer blockieren, um unbewusste geschlechtsspezifische oder andere Vorurteile zu vermeiden.
  • Ersetzen Sie personenbezogene Daten in Quelldaten für maschinelles Lernen, um Ungerechtigkeiten zu vermeiden – Wenn Sie beispielsweise Namen entfernen möchten, die beim Trainieren eines maschinellen Lernmodells das Geschlecht preisgeben könnten, können Sie den Dienst verwenden, um diese zu identifizieren und durch generische Platzhalter für das Modelltraining zu ersetzen.
  • Entfernen Sie persönliche Informationen aus der Callcenter-Transkription – Wenn Sie beispielsweise Namen oder andere PII-Daten entfernen möchten, die in einem Callcenter-Gespräch zwischen dem Agenten und dem Kunden ausgetauscht wurden. Sie könnten den Dienst verwenden, um diese zu identifizieren und zu entfernen.
  • Datenbereinigung für Datenforschung – Mithilfe von PII können Daten aufbereitet werden, sodass Datenwissenschaftler und Techniker damit das Training von Maschinen-Lernmodellen durchführen können. Daten unkenntlich machen, um sicherzustellen, dass Kundendaten nicht offengelegt werden.

Nächste Schritte

Es gibt zwei Möglichkeiten für die ersten Schritte zur Verwendung des Features für die Entitätsverknüpfung:

  • Language Studio, eine webbasierte Plattform, mit der Sie mehrere Sprachdienstfunktionen ausprobieren können, ohne selbst programmieren zu müssen.
  • Im Schnellstartartikel finden Sie eine Anleitung zum Senden von Anfragen an den Dienst mithilfe der REST-API und des Clientbibliothek-SDK.