Teilen über


Entwickeln von verantwortungsvollen generativen KI-Anwendungen und -Features unter Windows

Dieses Dokument enthält eine Übersicht über empfohlene verantwortungsvolle Entwicklungsmethoden, die Sie beim Erstellen von Anwendungen und Features unter Windows mit generativer künstlicher Intelligenz verwenden können.

Richtlinien für die verantwortungsvolle Entwicklung von generativen KI-Apps und -Features unter Windows

Jedes Team bei Microsoft folgt den Wichtigsten Prinzipien und Praktiken, um KI in Windows verantwortungsbewusst zu erstellen und zu versenden. Weitere Informationen zum Ansatz von Microsoft zur verantwortungsvollen Entwicklung finden Sie im ersten jährlichen Bericht über Verantwortungsvolle KI-Transparenz. Windows folgt grundlegenden Säulen der RAI-Entwicklung – Governance, Maps, Messen und Verwaltung – die am National Institute for Standards and Technology (NIST) AI Risk Management Framework ausgerichtet sind.

Governance – Richtlinien, Praktiken und Prozesse

Standards sind die Grundlage für Governance- und Compliance-Prozesse. Microsoft hat unseren eigenen Verantwortungsvollen KI-Standard entwickelt, einschließlich sechs Prinzipien, die Sie als Ausgangspunkt für die Entwicklung Ihrer Richtlinien für verantwortungsvolle KI verwenden können. Wir empfehlen Ihnen, KI-Prinzipien am Ende in Ihren Entwicklungslebenszyklus sowie ihre Prozesse und Workflows für die Einhaltung von Gesetzen und Vorschriften in Bezug auf Datenschutz, Sicherheit und verantwortungsvolle KI zu integrieren. Dies erstreckt sich von der frühen Bewertung der einzelnen KI-Features, der Verwendung von Tools wie der KI Fairness Checkliste und Richtlinien für die Interaktion zwischen Menschen und KI - Microsoft Research, über die Überwachung und Überprüfung von KI-Benchmarks, Tests und Prozessen mithilfe von Tools wie einer verantwortungsvollen KI-Scorecard, bis hin zu öffentlichen Dokumentation der Fähigkeiten und Grenzen Ihrer KI-Funktionen sowie der Offenlegung und Kontrolle der Nutzer - Hinweise, Einwilligungen, Informationen zur Datenerhebung und -verarbeitung usw. -- in Übereinstimmung mit den geltenden Datenschutzgesetzen, regulatorischen Anforderungen und Richtlinien.

Map – Identifizieren des Risikos

Empfohlene Methoden zum Identifizieren von Risiken sind:

End-to-End-Tests

  • Red-teaming: Der Begriff Red Teaming stand in der Vergangenheit für systematische Angriffe beim Testen von Sicherheitsrisiken. Mit dem Aufkommen von Large Language Models (LLMs) hat sich der Begriff über die herkömmliche Cybersicherheit hinaus erweitert und wird nun allgemein verwendet, um viele Arten von Überprüfungen, Tests und Angriffen von KI-Systemen zu beschreiben. Mit LLMs können sowohl die gutartige als auch die feindselige Nutzung zu potenziell schädlichen Ergebnissen führen, die viele Formen annehmen können, einschließlich schädlicher Inhalte wie Hassrede, Aufstachelung, die Verherrlichung von Gewalt oder sexuelle Inhalte.

  • Modellauswertung: Neben End-to-End-Tests ist es auch wichtig, das Modell selbst zu bewerten.

    • Modellkarte: Bei öffentlich verfügbaren Modellen, z. B. bei HuggingFace, können Sie die Modellkarte jedes Modells als praktischen Verweis überprüfen, um zu verstehen, ob ein Modell für Ihren Anwendungsfall die richtige ist. Weitere Informationen zu Modellkarten.

    • Manuelle Tests: Menschen, die Schritt-für-Schritt-Tests ohne Skripts durchführen, sind eine wichtige Komponente der Modellauswertung, die Folgendes unterstützt...

      • Messen des Fortschritts bei einer kleinen Gruppe von Prioritätsproblemen. Bei der Eindämmung bestimmter Schäden ist es oft am produktivsten, den Fortschritt anhand eines kleinen Datasets manuell zu überprüfen, bis der Schaden nicht mehr zu beobachten ist, bevor man zur automatischen Messung übergeht.

      • Definieren und Melden von Metriken, bis die automatisierte Messung für eine alleinige Verwendung zuverlässig genug ist.

      • Spot-Überprüfung in regelmäßigen Abständen zur Messung der Qualität der automatischen Messung.

    • Automatisierte Tests: Automatisch ausgeführte Tests sind auch eine wichtige Komponente der Modellauswertung, die Folgendes unterstützt...

      • Messungen in großem Maßstab und mit größerem Erfassungsbereich, um umfassendere Ergebnisse zu erhalten.

      • Laufende Messung, um eventuelle Regressionen zu überwachen, wenn sich das System, die Nutzung und die Abhilfemaßnahmen weiterentwickeln.

    • Modellauswahl: Wählen Sie ein Modell aus, das für Ihren Zweck geeignet ist, und informieren Sie sich selbst, um seine Funktionalitäten, Einschränkungen und potenzielle Sicherheitsprobleme zu verstehen. Stellen Sie beim Testen des Modells sicher, dass es Ergebnisse erzeugt, die für Ihre Verwendung geeignet sind. Zu den ersten Schritten zählen Ziele für Microsoft-Modellquellen (und nicht von Microsoft/Open Source):

Measure – Bewerten von Risiken und Risikominderungen

Empfohlene Vorgehensweisen umfassen:

  • Zuweisen eines Content Moderators: Der Content Moderator überprüft Text-, Bild-und Videoinhalte auf Material, das potenziell anstößig, bedenklich oder anderweitig unerwünscht ist. Weitere Informationen: Einführung in den Inhaltsmoderator (Microsoft Learn-Schulung).

    • Verwendung von Sicherheitsfiltern für Inhalte: Dieser Satz von Klassifizierungsmodellen erkennt vier Kategorien schädlicher Inhalte (Gewalt, Hass, Sexuelles und Selbstverletzung) mit jeweils vier Schweregraden (sicher, niedrig, mittel und hoch). Weitere Informationen: Konfigurieren von Inhaltsfiltern mit Azure OpenAI Service.

    • Anwenden eines Meta-Prompt: Ein Meta-Prompt ist eine Systemmeldung am Anfang der Eingabeaufforderung und wird verwendet, um das Modell mit Kontext, Anweisungen oder anderen Informationen zu versorgen, die für Ihren Anwendungsfall relevant sind. Diese Anweisungen werden verwendet, um das Verhalten des Modells zu leiten. Weitere Informationen: Erstellen effektiver Sicherheitsleitplanken mit Meta-Prompt / System Message Engineering.

    • Verwenden von Blocklisten: Dadurch wird die Verwendung bestimmter Begriffe oder Muster in einer Eingabeaufforderung blockiert. Weitere Informationen: Verwenden einer Blockliste in Azure OpenAI.

    • Machen Sie sich mit der Herkunft des Modells vertraut: Die Herkunft ist die Geschichte des Besitzes eines Modells oder das Wer-was-wo-wann, was sehr wichtig zu verstehen ist. Wer hat die Daten in einem Modell gesammelt? Auf wen beziehen sich die Daten? Welche Art von Daten werden verwendet? Wo wurden die Daten gesammelt? Wann wurden die Daten gesammelt? Wenn Sie wissen, wo Modelldaten herstammen, können Sie ihre Qualität und Zuverlässigkeit bewerten sowie eine unethische, unfaire, voreingenommene oder ungenaue Datennutzung vermeiden.

    • Verwenden Sie eine Standard-Pipeline: Verwenden Sie eine Inhaltsmoderation-Pipeline, anstatt Teile stückweise zusammenzustellen. Weitere Informationen: Verstehen von Machine Learning-Pipelines.

  • Anwenden von Benutzeroberflächen -Entschärfungen: Diese bieten Ihren Benutzern wichtige Klarheit über Funktionen und Einschränkungen eines KI-basierten Features. Um Benutzern zu helfen und Transparenz über Ihr Feature bereitzustellen, können Sie:

    • Ermutigen Sie Benutzer, Ausgaben zu bearbeiten, bevor Sie sie annehmen

    • Hervorheben potenzieller Ungenauigkeiten in KI-Ausgaben

    • Geben Sie die Rolle der KI in der Interaktion offen

    • Zitate und Quellen

    • Beschränken Sie gegebenenfalls die Länge der Ein- und Ausgabe

    • Bereitstellen einer Struktur für Eingabe oder Ausgabe – Eingabeaufforderungen müssen einem Standardformat entsprechen

    • Bereiten Sie vorab festgelegte Antworten auf umstrittene Eingabeaufforderungen vor.

Verwalten – Entschärfung von KI-Risiken

Empfehlungen zur Risikominderung von KI umfassen:

  • Überwachung von Missbrauch: Diese Methodik erkennt und entschärft Fälle von wiederkehrenden Inhalten und/oder Verhaltensweisen, die darauf hinweisen, dass ein Dienst in einer Weise verwendet wird, die gegen die Verhaltensregeln oder andere geltende Produktbedingungen verstoßen könnte. Weitere Informationen: Überwachung von Missbrauch.

  • Phasenweise Zustellung: Stellen Sie Ihre KI-Lösung langsam bereit, um eingehende Berichte und Bedenken zu behandeln.

  • Incident Response-Plan: Bewerten Sie für jedes Risiko mit hoher Priorität, was geschieht, und wie lange es dauert, um auf einen Vorfall zu reagieren, und wie der Antwortprozess aussieht.

  • Möglichkeit zum Deaktivieren der Funktion oder des Systems: Stellen Sie eine Funktionalität zur Verfügung, um die Funktion auszuschalten, wenn ein Vorfall bevorsteht oder eingetreten ist, der eine Unterbrechung der Funktion erfordert, um weiteren Schaden zu vermeiden.

  • Benutzerzugriffssteuerelemente/-blockierung: Entwickeln Sie eine Möglichkeit, Benutzer zu blockieren, die ein System falsch verwenden.

  • Benutzerfeedbackmechanismus: Datenströme, um Probleme von der Seite des Benutzers zu erkennen.

  • Verantwortungsvolle Bereitstellung von Telemetriedaten: Identifizieren, Sammeln und Überwachen von Signalen, die die Benutzerzufriedenheit oder ihre Fähigkeit zur Nutzung des Systems wie vorgesehen angeben, sicherstellen, dass Sie den geltenden Datenschutzgesetzen, Richtlinien und Verpflichtungen folgen. Verwenden Sie Telemetriedaten, um Lücken zu identifizieren und das System zu verbessern.

Tools und Ressourcen