Freigeben über


Transparenzhinweis für Azure OpenAI-Dienst

Von Bedeutung

Nicht englische Übersetzungen werden nur zur Bequemlichkeit bereitgestellt. Bitte wenden Sie sich an die EN-US Version dieses Dokuments für die Bindungsversion.

Was ist ein Transparenzhinweis?

Zu einem KI-System gehört nicht nur die Technologie, sondern auch die Personen, die das System verwenden, sowie die davon betroffenen Personen und die Umgebung, in der es bereitgestellt wird. Die Schaffung eines Systems, das für seinen vorgesehenen Zweck geeignet ist, erfordert ein Verständnis dafür, wie die Technologie funktioniert, was ihre Möglichkeiten und Einschränkungen sind und wie die beste Leistung erreicht wird. Die Transparenzhinweise von Microsoft sollen Ihnen helfen zu verstehen, wie unsere KI-Technologie funktioniert, welche Entscheidungen Systembesitzer treffen können, die die Systemleistung und das Systemverhalten beeinflussen, und wie wichtig es ist, das gesamte System zu betrachten, einschließlich der Technologie, der Menschen und der Umgebung. Sie können Transparenzhinweise verwenden, wenn Sie Ihr eigenes System entwickeln oder bereitstellen, oder sie mit den Personen teilen, die Ihr System verwenden oder davon betroffen sind.

Die Transparenzhinweise von Microsoft sind Teil einer größeren Initiative bei Microsoft, unsere KI-Prinzipien praktisch umzusetzen. Weitere Informationen finden Sie in den KI-Prinzipien von Microsoft.

Die Grundlagen der Azure OpenAI-Modelle

Azure OpenAI bietet Kunden einen vollständig verwalteten KI-Dienst, mit dem Entwickler und Datenwissenschaftler die leistungsstarken Modelle von OpenAI anwenden können, einschließlich Modellen, die natürliche Sprache, Code und Bilder generieren können. Im Azure OpenAI-Dienst sind die OpenAI-Modelle in microsoft-entwickelte Inhaltsfilterungs- und Missbrauchserkennungsmodelle integriert. Erfahren Sie mehr über die Inhaltsfilterung hier und die Missbrauchserkennung hier.

Einleitung

Modellgruppe Text/Code Bildanalyse Audio/ Sprache
GPT-3 & Codex
DALL-E 2 & 3
GPT-Bild-1
Whisper
GPT-4 Turbo mit Vision
GPT-4o
GPT-4o-mini
GPT-4.1
GPT-4.1-mini
GPT-4.1-nano
GPT-4.5
o1-Serie
O3
o3-mini
o4-mini
computer-use-preview

Wählen Sie die Registerkarten aus, um Inhalte für den relevanten Modelltyp anzuzeigen.

Im Rahmen des vollständig verwalteten Azure OpenAI-Diensts analysieren und generieren die GPT-3-Modelle natürliche Sprache, Codex-Modelle analysieren und generieren Code- und Nur-Text-Codekommentare, und GPT-4 - und o-Series-Begründungsmodelle können natürliche Sprache und Code verstehen und generieren. Diese Modelle verwenden eine autoregressive Architektur, d. h. sie verwenden Daten aus früheren Beobachtungen, um das wahrscheinlichste nächste Wort vorherzusagen. Dieser Vorgang wird dann wiederholt, indem der neu generierte Inhalt an den ursprünglichen Text angefügt wird, um die vollständige generierte Antwort zu erzeugen. Da die Antwort auf den Eingabetext bedingt ist, können diese Modelle einfach durch Ändern des Eingabetexts auf verschiedene Aufgaben angewendet werden.

Modelle der GPT-3-Serie wurden auf einer Vielzahl öffentlich zugänglicher Freitextdaten vortrainiert. Diese Daten stammen aus einer Kombination von Webcrawling (insbesondere einer gefilterten Version von Common Crawl, die eine breite Palette von Texten aus dem Internet umfasst und 60 Prozent des gewichteten Vortrainings-Datensatzes ausmacht) und hochwertigeren Datensätzen, einschließlich einer erweiterten Version des WebText-Datensatzes, zwei internetbasierter Bücherkorpora und der englischsprachigen Wikipedia. Das GPT-4-Basismodell wurde mit öffentlich verfügbaren Daten (z. B. Internetdaten) und Daten trainiert, die von OpenAI lizenziert wurden. Das Modell wurde mit verstärkungsbasiertem Lernen mit menschlichem Feedback (RLHF) fein abgestimmt.

Das Modell "Computerverwendung (Vorschau)" akzeptiert Texteingaben beim ersten Durchgang und Screenshot-Bilder beim zweiten und den folgenden Durchgängen und erzeugt Befehle für Tastatur und Maus. Mit dem Computer use-Modell und dem Computer Use Tool können Entwickler agentische KI-Systeme erstellen.

Erfahren Sie mehr über die Schulungs- und Modellierungstechniken in openAI's GPT-3, GPT-4 und Codex Research Papers.

Feinabstimmung bezieht sich auf die Verwendung der überwachten Feinabstimmung, um die Gewichtungen eines Basismodells anzupassen und basierend auf einem bereitgestellten Schulungssatz bessere Antworten zu liefern. Alle Anwendungsfälle und Überlegungen für große Sprachmodelle gelten für fein abgestimmte Modelle, aber es gibt auch zusätzliche Überlegungen.

Von Bedeutung

Feinabstimmungen sind nur für Text- und Codemodelle, nicht für Seh- oder Sprachmodelle verfügbar.

Schlüsselbegriffe

Begriff Definition
Eingabeaufforderung Der Text, den Sie im API-Aufruf an den Dienst senden. Dieser Text wird dann in das Modell eingegeben. Beispielsweise kann ein Benutzer die folgende Eingabeaufforderung eingeben:

Convert the questions to a command:
Q: Ask Constance if we need some bread
A: send-msg 'find constance' Do we need some bread?
Q: Send a message to Greg to figure out if things are ready for Wednesday.
A:
Abschluss oder Generierung Der Text, den Azure OpenAI als Antwort ausgibt. Beispielsweise kann der Dienst mit der folgenden Antwort auf die oben genannte Eingabeaufforderung antworten: send-msg 'find greg' figure out if things are ready for Wednesday.
Token Azure OpenAI verarbeitet Text, indem er in Token unterteilt wird. Token können Wörter oder einfach nur Zeichenblöcke sein. Beispielsweise wird das Wort hamburger in die Token hamaufgeteilt und burger, während ein kurzes und gemeinsames Wort wie pear ein einzelnes Token ist. Viele Token beginnen mit einem Leerzeichen, z. B hello . und bye.
Feinabstimmung Überwachte Feinabstimmung (SFT), Verstärkungs-Feinabstimmung (RFT) und direkte Präferenzoptimierung (DPO oder Präferenz-Feinabstimmung) für große Sprachmodelle beziehen sich auf den Prozess der Verwendung eines vorab trainierten Sprachmodells, das häufig auf einem massiven Datensatz trainiert wurde, und seiner anschließenden Schulung hinsichtlich einer spezifischeren Aufgabe mit gekennzeichneten Daten. Dies umfasst das Anpassen der Gewichtungen des Modells mithilfe dieses kleineren, spezifischen Datasets, sodass sich das Modell auf die Aufgaben spezialisiert, die es ausführen kann, um die Leistung und Genauigkeit zu verbessern.
Modellgewichte Modellgewichtungen sind Parameter innerhalb des Modells, die während des Schulungsvorgangs aus den Daten gelernt werden. Sie bestimmen die Ausgabe des Modells für eine bestimmte Eingabe. Diese Gewichtungen werden als Reaktion auf den Fehler angepasst, den das Modell in seinen Vorhersagen vorgenommen hat, mit dem Ziel, diesen Fehler zu minimieren.
Nicht übereinstimmender Inhalt Inhalte, die durch das Modell generiert werden und nicht sachlich oder ungenau im Vergleich zu dem sind, was in den Quellmaterialien vorhanden war.
Agentische KI-Systeme Autonome KI-Systeme, die ihre Umgebung spüren und auf ihre Umgebung reagieren, um Ziele zu erreichen.
Autonomie Die Fähigkeit, Aktionen unabhängig auszuführen und die Kontrolle über das Systemverhalten mit eingeschränkter oder ohne direkte menschliche Aufsicht auszuüben.
Werkzeug zur Computernutzung Ein Tool, das bei Verwendung mit dem Computer Use-Modell Maus- und Tastaturaktionen erfasst, die vom Modus generiert werden, und übersetzt sie direkt in ausführbare Befehle. Dadurch können Entwickler Computerverwendungsaufgaben automatisieren.

Fähigkeiten

Die o-Series-Begründungsmodelle, GPT-4-, GPT-3- und Codex-Modelle und Die Azure OpenAI-Auswertung verwenden Anweisungen und Beispiele in natürlicher Sprache in der Eingabeaufforderung, um die Aufgabe zu identifizieren. Das Modell schließt dann die Aufgabe ab, indem der wahrscheinlichste nächste Text vorhergesagt wird. Diese Technik wird als "kontextinternes Lernen" bezeichnet. Diese Modelle werden während dieses Schritts nicht neu trainiert, sondern geben stattdessen Vorhersagen basierend auf dem Kontext, den Sie in die Eingabeaufforderung einschließen.

Es gibt drei Hauptansätze für kontextbezogenes Lernen. Diese Ansätze variieren je nach Der Menge der aufgabenspezifischen Daten, die dem Modell zugewiesen werden:

Few-Shot: In diesem Fall fügt ein Benutzer mehrere Beispiele in den Prompt ein, die das erwartete Antwortformat und den erwarteten Inhalt veranschaulichen. Das folgende Beispiel zeigt einen Few-Shot-Prompt mit mehreren Beispielen:

Convert the questions to a command: 
Q: Ask Constance if we need some bread 
A: send-msg `find constance` Do we need some bread? 
Q: Send a message to Greg to figure out if things areready for Wednesday. 
A: send-msg `find greg` Is everything ready forWednesday? 
Q: Ask Ilya if we're still having our meeting thisevening 
A: send-msg `find ilya` Are we still having a meetingthis evening? 
Q: Contact the ski store and figure out if I can getmy skis fixed before I leave on Thursday 
A: send-msg `find ski store` Would it be possible toget my skis fixed before I leave on Thursday? 
Q: Thank Nicolas for lunch 
A: send-msg `find nicolas` Thank you for lunch! 
Q: Tell Constance that I won't be home before 19:30tonight — unmovable meeting. 
A: send-msg `find constance` I won't be home before19:30 tonight. I have a meeting I can't move. 
Q: Tell John that I need to book an appointment at10:30 
A:  

Die Anzahl der Beispiele reicht in der Regel von 0 bis 100, je nachdem, wie viele in die maximale Eingabelänge für eine einzelne Eingabeaufforderung passen können. Few-Shot-Learning ermöglicht eine erhebliche Reduzierung der Menge an aufgabenspezifischen Daten, die für genaue Vorhersagen erforderlich sind.

One-Shot: Dieser Ansatz ist der gleiche wie der Few-Shot-Ansatz, allerdings wird nur ein einziges Beispiel bereitgestellt. Das folgende Beispiel zeigt einen einseitigen Prompt:

Convert the questions to a command:
Q: Ask Constance if we need some bread
A: send-msg `find constance` Do we need some bread?
Q: Send a message to Greg to figure out if things are ready for Wednesday.
A:

Zero-shot: In diesem Fall werden dem Modell keine Beispiele zur Verfügung gestellt, sondern nur die Aufgabenanforderung. Das folgende Beispiel zeigt einen Zero-Shot-Prompt:

Convert the question to a command:
Q: Ask Constance if we need some bread
A:

Chain-of-Thought : Die o-Serien-Reasoning-Modelle von Azure OpenAI verfügen über neue erweiterte Logikfunktionen mithilfe von CoT-Techniken (Chain-of-Thought). CoT-Techniken generieren Zwischenschritte im Denkprozess, bevor sie eine Antwort bereitstellen, um komplexere Herausforderungen durch schrittweise Problemlösung lösen zu können. o1 zeigt Verbesserungen bei Benchmarks für denkintensive Domänen wie Forschung, Strategie, Wissenschaft, Codierung, Mathematik und andere. Diese Modelle verfügen über Sicherheitsverbesserungen durch fortgeschrittene logische Fähigkeiten, mit der Fähigkeit, Sicherheitsregeln effektiver durchzudenken und anzuwenden. Dies führt zusammen mit Sicherheits-Benchmarks zu einer besseren Leistung, z. B. zum Generieren illegaler Ratschläge, zur Auswahl stereotyper Reaktionen und zum Erliegen bekannter Jailbreaks.

Ausführlichere Informationen zu den Funktionen dieser Modellfamilie finden Sie auf der OpenAI o1 System Card und der o3-mini System Card.

Azure OpenAI-Auswertung

Die Auswertung großer Sprachmodelle ist ein wichtiger Schritt bei der Messung ihrer Leistung über verschiedene Aufgaben und Dimensionen hinweg. Diese Aufgabe ist besonders wichtig für fein abgestimmte Modelle, bei denen die Beurteilung der Leistungsgewinne (oder Verluste) aus der Ausbildung von entscheidender Bedeutung ist. Ohne gründliche Auswertungen kann es schwierig werden zu verstehen, wie sich verschiedene Versionen des Modells auf Ihre spezifische Anwendung auswirken können.

Azure OpenAI Evaluation ist eine benutzeroberflächenbasierte Erfahrung zum Auswerten von Daten, einschließlich generierter Datasets aus einer Azure OpenAI-Bereitstellung oder anderen manuell kuratierten Dateien.

Azure OpenAI Evaluation verfügt über einen optionalen Schritt zum Generieren von Antworten. Wenn sich der Benutzer für diesen Schritt entscheidet, geben wir eine Eingabeaufforderung (System-/Benutzernachricht) an, um das Modell anzuweisen, wie Antworten generiert werden.

Azure OpenAI Evaluation umfasst 9 Kategorien von Tests, um Ergebnisse zu bewerten. Einige erfordern Bodenwahrheitsdaten (z. B. Fakten), während andere nicht (Schemaüberprüfung) sind. Grader sind eine Mischung aus CPU-basierten und modellbasierten. Hier ist die Liste der Testkriterien: Sachlichkeit, Sentiment, Gültiges JSON oder XML, Kriterienübereinstimmung, Benutzerdefinierte Eingabeaufforderung, Semantische Ähnlichkeit, Enthält String, Schemaübereinstimmung und Textqualität.

Text-zu-Aktion

Das Modell computerverwendung (Vorschau) ermöglicht Text-zu-Action-Funktionen, sodass Benutzer Anweisungen in natürlicher Sprache bereitstellen können, die das Modell in umsetzbare Schritte innerhalb grafischer Benutzeroberflächen übersetzt. Bei einem Befehl wie "Ausfüllen des Kundensupportformulars mit diesen Informationen" identifiziert das Modell die relevanten Felder, gibt die richtigen Daten ein und sendet das Formular. Sie kann in Webschnittstellen navigieren, strukturierte oder unstrukturierte Daten extrahieren und eingeben, Workflows automatisieren und die Einhaltung von Sicherheitsrichtlinien erzwingen. Durch das Verständnis von Absichten und Ausführen von Aktionen optimiert es Geschäftsvorgänge, wodurch die Automatisierung barrierefreier und effizienter wird.

Anwendungsfälle

Beabsichtigte Verwendungen

Die o-Series-, GPT-4-, GPT-3- und Codex-Modelle und Azure OpenAI-Auswertungen können in mehreren Szenarien verwendet werden. Die folgende Liste ist nicht vollständig, veranschaulicht aber die Vielfalt der Aufgaben, die für Modelle mit geeigneten Gegenmaßnahmen unterstützt werden können:

  • Chat- und Unterhaltungsinteraktion : Benutzer können mit einem Unterhaltungsagenten interagieren, der mit Antworten antwortet, die aus vertrauenswürdigen Dokumenten stammen, z. B. interne Unternehmensdokumentation oder technische Supportdokumentation. Unterhaltungen müssen auf die Beantwortung von bereichsbezogenen Fragen beschränkt sein.
  • Erstellung von Chats und Unterhaltungen : Benutzer können einen Unterhaltungs-Agent erstellen, der mit Antworten antwortet, die aus vertrauenswürdigen Dokumenten stammen, z. B. interne Unternehmensdokumentation oder technische Supportdokumentation. Unterhaltungen müssen auf die Beantwortung von bereichsbezogenen Fragen beschränkt sein.
  • Codegenerierungs- oder Transformationsszenarien : Beispiel: Konvertieren einer Programmiersprache in eine andere, Generieren von Docstrings für Funktionen, Konvertieren natürlicher Sprache in SQL.
  • Journalistische Inhalte : Zur Erstellung neuer journalistischer Inhalte oder zum Umschreiben von journalistischen Inhalten, die vom Benutzer als Schreibhilfe für vordefinierte Themen übermittelt werden. Benutzer können die Anwendung nicht als allgemeines Inhaltserstellungstool für alle Themen verwenden.
  • Fragebeantwortung : Benutzer können Fragen stellen und Antworten von vertrauenswürdigen Quelldokumenten wie der internen Unternehmensdokumentation erhalten. Die Anwendung generiert keine Antworten, die nicht auf vertrauenswürdiger Dokumentation basieren.
  • Grund für strukturierte und unstrukturierte Daten : Benutzer können Eingaben mithilfe von Klassifizierung, Stimmungsanalyse von Text oder Entitätsextraktion analysieren. Beispiele hierfür sind die Sentimentanalyse von Produktfeedback, die Analyse von Supportanrufen und Transkriptionen sowie das Verfeinern der textbasierten Suche mit Einbettungen.
  • Suche : Benutzer können vertrauenswürdige Quelldokumente wie die interne Unternehmensdokumentation durchsuchen. Die Anwendung generiert keine Ergebnisse, die nicht in verlässlichen Quelldokumentationen verankert sind.
  • Zusammenfassung: Benutzer können Inhalte einreichen, die für vordefinierte Themen zusammengefasst werden sollen, die in die Anwendung integriert sind. Die Anwendung kann nicht als offenes System für Zusammenfassungen verwendet werden. Beispiele hierfür sind Zusammenfassungen der internen Unternehmensdokumentation, Call Center-Transkriptionen, technische Berichte und Produktrezensionen.
  • Schreibunterstützung zu bestimmten Themen : Benutzer können neue Inhalte erstellen oder Inhalte neu schreiben, die vom Benutzer als Schreibhilfe für Geschäftsinhalte oder vordefinierte Themen eingereicht werden. Benutzer können Inhalte nur für bestimmte geschäftliche Zwecke oder vordefinierte Themen neu schreiben oder erstellen und die Anwendung nicht als allgemeines Inhaltserstellungstool für alle Themen verwenden. Beispiele für Geschäftsinhalte sind Vorschläge und Berichte. Informationen zur journalistischen Verwendung finden Sie oben im Fall journalistischer Inhalte .
  • Datengenerierung zur Feinabstimmung: Benutzer können ein Modell in Azure OpenAI verwenden, um Daten zu generieren, die ausschließlich zur Feinabstimmung (i) eines anderen Azure OpenAI-Modells verwendet werden, wobei die Feinabstimmungsfunktionen von Azure OpenAI und/oder (ii) ein weiteres benutzerdefiniertes Azure AI-Modell mit den Feinabstimmungsfunktionen des Azure AI-Diensts verwendet werden. Das Generieren von Daten und Feinabstimmungsmodellen ist nur auf interne Benutzer beschränkt; Das fein abgestimmte Modell kann nur für die Ableitung im anwendbaren Azure AI-Dienst und für den Azure OpenAI-Dienst nur für den zulässigen Anwendungsfall(n) des Kunden in diesem Formular verwendet werden.

Fein abgestimmte Anwendungsfälle

Im Folgenden finden Sie weitere Anwendungsfälle, die wir für fein abgestimmte Modelle empfehlen. Feinabstimmung eignet sich am besten für:

  • Steuerung des Stils, Formats, Tons oder qualitativer Aspekte der Antworten anhand von Beispielen der gewünschten Antworten.
  • Um sicherzustellen, dass das Modell zuverlässig eine gewünschte Ausgabe erzeugt, wie beispielsweise Antworten in einem bestimmten Format bereitzustellen oder sicherzustellen, dass Antworten auf Informationen in der Eingabeaufforderung basieren.
  • Anwendungsfälle mit vielen Edge-Fällen , die nicht in Beispielen in der Eingabeaufforderung behandelt werden können, z. B. komplexe natürliche Sprache für Codebeispiele.
  • Verbesserung der Leistung bei bestimmten Fähigkeiten oder Aufgaben wie Klassifizierung, Zusammenfassung oder Formatierung – das kann in einer Aufforderung schwer zu beschreiben sein.
  • Reduzierung der Kosten oder Latenz durch Kürzere Eingabeaufforderungen oder Austauschen einer fein abgestimmten Version eines kleineren/schnelleren Modells für ein allgemeineres Modell (z. B. fein abgestimmter GPT-3.5-Turbo für GPT-4).

Wie bei Basismodellen gelten auch die im Azure OpenAI Code of Conduct beschriebenen Anwendungsfallverbote auch für fein abgestimmte Modelle.

Die Feinabstimmung wird nicht allein für Szenarien empfohlen, in denen Sie Ihr Modell erweitern möchten, um Informationen außerhalb des Anwendungsbereichs einzuschließen, wo Erklärbarkeit oder Verankerung wichtig sind, oder wo die zugrunde liegenden Daten häufig aktualisiert werden.

O-Series-Anwendungsfälle

Die erweiterten Denkfähigkeiten der O-Serien-Reasoning-Modelle könnten am besten geeignet sein für anspruchsvolle Anwendungen in den Bereichen Wissenschaft, Programmierung, Mathematik und ähnlichen Feldern. Zu bestimmten Anwendungsfällen zählen:

  • Komplexe Codegenerierung, -analyse und -optimierung: Algorithmusgenerierung und erweiterte Codierungsaufgaben, um Entwicklern bei der Ausführung von mehrstufigen Workflows zu helfen und die schritte bei der Codeentwicklung besser zu verstehen.
  • Erweiterte Problemlösung: Umfassende Brainstorming-Sitzungen, Strategieentwicklung und Aufschlüsseln vielschichtiger Probleme.
  • Komplexer Dokumentvergleich: Analysieren von Verträgen, Falldateien oder juristischen Dokumenten, um subtile Unterschiede bei Dokumentinhalten zu erkennen.
  • Folgen von Anleitungen und Workflow-Verwaltung: Umgang mit Workflows, die einen kürzeren Kontext erfordern.

Ausführlichere Informationen zu beabsichtigten Verwendungen finden Sie auf der OpenAI o1 System Card und der o3-mini System Card.

Azure OpenAI-Evaluierungsanwendungsfälle

Die Azure OpenAI-Auswertung ist ein Nur-Text-Feature und kann nicht mit Modellen verwendet werden, die keine Texteingaben unterstützen. Evals können in mehreren Szenarien verwendet werden, einschließlich, aber nicht beschränkt auf:

  • Textabgleich/Vergleichsauswertung: Dies ist hilfreich für Szenarien, in denen der Benutzer überprüfen möchte, ob die Ausgabe mit einer erwarteten Zeichenfolge übereinstimmt. Benutzer können auch zwei Wertesätze vergleichen und die Beziehungen ermitteln. Beispiele hierfür sind, aber nicht beschränkt auf Mehrfachauswahlfragen, bei denen Antworten mit einem Antwortschlüssel verglichen werden, und die Zeichenfolgenüberprüfung.
  • Textqualität: Textqualität bewertet die Qualität der Ergebnisse mit Methoden wie Bleu, Rouge oder Kosinusalgorithmen und wird unter anderem in verschiedenen Aufgaben der Verarbeitung natürlicher Sprache verwendet, z. B. maschinelle Übersetzung, Textzusammenfassung und Textgenerierung.
  • Klassifizierungsbasierte Auswertung: Die klassifizierungsbasierte Auswertung bewertet die Leistung eines Modells durch Zuweisen von Antworten auf vordefinierte Kategorien oder Bezeichnungen oder durch Vergleichen der Ausgabe des Modells mit einem Referenzsatz korrekter Antworten. Automatisierte Bewertungs-, Stimmungsanalyse und Produktkategorisierung gehören zu den gängigen Anwendungsfällen.
  • Bewertungder Unterhaltungsqualität: Die Bewertung der Unterhaltungsqualität umfasst den Vergleich von Antworten mit vordefinierten Kriterien mithilfe einer detaillierten CoT-Eingabeaufforderung (Chain-of-Thought). Häufige Anwendungsfälle sind unter anderem Kundensupport, Chatbot-Entwicklung und Bildungsbewertungen.
  • Kriterienbasierte Bewertung: Ein häufiges Szenario für die kriterienbasierte Bewertung ist die Sachlichkeit. Die Bewertung der tatsächlichen Genauigkeit beinhaltet den Vergleich einer eingereichten Antwort mit einer Expertenantwort, die sich ausschließlich auf faktenbezogene Inhalte konzentriert. Dies kann beim Einsatz von Bildungstools hilfreich sein, um die Genauigkeit der von LLMs bereitgestellten Antworten zu verbessern, oder in Forschungshilfetools, um die faktische Genauigkeit von Antworten zu bewerten, die von LLMs in akademischen Umgebungen generiert werden.
  • Zeichenfolgengültigkeitsauswertung: Ein gängiges Szenario besteht darin, zu überprüfen, ob die Antwort des Modells auf ein bestimmtes Schema folgt oder gültige JSON- oder XML-Inhalte ist.

Anwendungsfälle für Computernutzung (Vorschau)

Die Funktionen der Computerverwendung eignen sich am besten für die Entwicklung agentischer KI-Systeme, die autonom mit GUIs interagieren können. Zu bestimmten Anwendungsfällen zählen:

  • Automatisierte Webnavigation und Interaktion: Autonomes Navigieren webbasierter Schnittstellen zum Abrufen und Präsentieren von Informationen aus vertrauenswürdigen Quellen, z. B. internen Unternehmensressourcen oder strukturierten Datenbanken. Das Modell folgt vordefinierten Navigationsregeln, um relevante Daten zu extrahieren und gleichzeitig die Einhaltung von Sicherheitsrichtlinien sicherzustellen.

  • Web-Based Aufgabenautomatisierung: Automatisieren sich wiederholender webbasierter Aufgaben, z. B. Ausfüllen von Formularen, Übermitteln von Daten oder Interagieren mit Webanwendungen. Die Computernutzung kann Tasten drücken, Text eingeben und strukturierte Daten verarbeiten, arbeitet jedoch nur innerhalb genehmigter Arbeitsabläufe und Bereiche.

  • Strukturierte und unstrukturierte Datenextraktion: Extrahieren relevanter Daten aus strukturierten Quellen wie Tabellen und Kalkulationstabellen sowie unstrukturierte Quellen wie PDFs, gescannte Dokumente oder E-Mails. Diese Funktion ist nützlich für Aufgaben wie Finanzdatenverarbeitung, Vertragsanalyse oder Kundensupport-Ticketkategorisierung.

  • Automatisiertes Ausfüllen von Formularen und Dateneingabe: Extrahieren von Informationen aus strukturierten Datenbanken oder Benutzereingaben und verwenden sie zum Auffüllen webbasierter Formulare. Dies ist nützlich, um Kundendienstanfragen, HR-Prozesse oder CRM-Updates zu automatisieren und dabei die Genauigkeit und Konsistenz bei der Datenverarbeitung sicherzustellen.

  • Web-Based Bildanalyse: Analysieren von Bildern, die auf Webseiten gefunden wurden, um Objekte, Szenen oder relevante Muster zu erkennen und zu markieren. Computerverwendung kann visuelle Informationen extrahieren, um Anwendungen wie Bestandsverwaltung, Dokumentverarbeitung oder Objektklassifizierung zu unterstützen.

  • Interaktive visuelle Suche und Identifikation: Unterstützen von Benutzern beim Auffinden relevanter visueller Inhalte durch strukturierte Suchvorgänge. Beispielsweise kann die Computerverwendung Produkte in einem E-Commerce-Katalog identifizieren, Orientierungspunkte in Reiseanwendungen erkennen oder bestimmte Bilder aus digitalen Archiven basierend auf vordefinierten Kriterien abrufen.

  • Automatisierte Compliance- und Richtlinienüberprüfungen: Scannen webbasierter Inhalte wie hochgeladene Dateien, Verträge oder interne Dokumentation zur Einhaltung vordefinierter Complianceregeln. Die Computerverwendung kann fehlende Informationen, Inkonsistenzen oder potenzielle Verstöße kennzeichnen, um regulatorische Standards innerhalb einer Organisation durchzusetzen.

  • Automatisierte Workflowausführung für Geschäftsanwendungen: Definieren von mehrstufigen Workflows für die Navigation in Unternehmensanwendungen, z. B. Generieren von Berichten, Aktualisieren von Datensätzen oder Abrufen von Analysen. Computer Use folgt vordefinierten Schritten innerhalb von Geschäftstools und hält Zugriffssteuerungsrichtlinien ein, um eine sichere Ausführung sicherzustellen.

Hinweise zur Auswahl eines Anwendungsfalls

Wir empfehlen Kunden, die Modelle Azure OpenAI GPT-4, GPT-3, Codex und Computer Use in ihren innovativen Lösungen oder Anwendungen zu verwenden, die im Registrierungsformular für eingeschränkten Zugriff genehmigt wurden. Bei der Auswahl eines Anwendungsfalls sind jedoch einige Überlegungen nötig:

  • Nicht geeignet für offene, ungezwungene Inhaltsgenerierung. Szenarien, in denen Benutzer Inhalte zu jedem Thema generieren können, sind wahrscheinlicher, dass sie anstößigen oder schädlichen Text erzeugen. Das gleiche gilt für längere Generationen.
  • Eignet sich nicht für Szenarien, in denen up-to-datum, sachlich genaue Informationen von entscheidender Bedeutung sind, es sei denn, Sie haben menschliche Prüfer oder verwenden die Modelle, um Ihre eigenen Dokumente zu durchsuchen und die Eignung für Ihr Szenario zu überprüfen. Der Dienst verfügt nicht über Informationen zu Ereignissen, die nach dem Schulungstermin auftreten, es fehlen wahrscheinlich Kenntnisse über einige Themen, und möglicherweise liefert er nicht immer faktenbasierte Informationen.
  • Vermeiden Sie Szenarien, in denen die Verwendung oder der Missbrauch des Systems zu erheblichen körperlichen oder psychischen Verletzungen eines Einzelnen führen kann. Szenarien, die Patienten diagnostizieren oder Medikamente verschreiben, können beispielsweise erhebliche Schäden verursachen. Die Einbeziehung sinnvoller menschlicher Überprüfung und Aufsicht in das Szenario kann dazu beitragen, das Risiko schädlicher Ergebnisse zu verringern.
  • Vermeiden Sie Szenarien, in denen sich die Nutzung oder der Missbrauch des Systems auf die Lebensmöglichkeiten oder den rechtlichen Status auswirken könnte. Beispiele hierfür sind Szenarien, in denen das KI-System den rechtlichen Status, die gesetzlichen Rechte oder den Zugang einer Person zu Krediten, Bildung, Beschäftigung, Gesundheitsversorgung, Wohnraum, Versicherungen, Sozialleistungen, Dienstleistungen, Chancen oder die Bedingungen, zu denen diese bereitgestellt werden, beeinflussen könnte. Die Einbeziehung sinnvoller menschlicher Überprüfung und Aufsicht in das Szenario kann dazu beitragen, das Risiko schädlicher Ergebnisse zu verringern.
  • Vermeiden Sie Szenarien mit hohem Einsatz, die zu Schaden führen könnten. Die modelle, die vom Azure OpenAI-Dienst gehostet werden, spiegeln bestimmte gesellschaftliche Ansichten, Verzerrungen und andere unerwünschte Inhalte wider, die in den Schulungsdaten oder den in der Eingabeaufforderung bereitgestellten Beispielen vorhanden sind. Daher warnen wir vor der Verwendung der Modelle in Szenarien mit hohem Einsatz, in denen unfaires, unzuverlässiges oder anstößiges Verhalten extrem kostspielig oder zu Schaden führen kann. Die Einbeziehung sinnvoller menschlicher Überprüfung und Aufsicht in das Szenario kann dazu beitragen, das Risiko schädlicher Ergebnisse zu verringern.
  • Berücksichtigen Sie Anwendungsfälle in kritischen Bereichen oder branchen mit hohen Anforderungen: Beispiele sind zum Beispiel Gesundheitswesen, Medizin, Finanzen oder Recht.
  • Berücksichtigen Sie klar abgegrenzte Chatbot-Szenarien. Das Einschränken der Nutzung des Dienstes in Chatbots auf eine schmale Domäne reduziert das Risiko, unbeabsichtigte oder unerwünschte Reaktionen zu generieren.
  • Berücksichtigen Sie alle generativen Anwendungsfälle sorgfältig. Szenarien zur Inhaltsgenerierung können wahrscheinlicher zu unbeabsichtigten Ausgaben führen, und diese Szenarien erfordern sorgfältige Überlegungen und Gegenmaßnahmen.
  • Rechtliche und behördliche Überlegungen: Organisationen müssen potenzielle spezifische rechtliche und behördliche Verpflichtungen bewerten, wenn Sie KI-Dienste und -Lösungen verwenden, die möglicherweise nicht für die Verwendung in jeder Branche oder in jedem Szenario geeignet sind. Darüber hinaus sind KI-Dienste oder -Lösungen nicht dafür konzipiert, auf eine Weise verwendet zu werden, die gegen die geltenden Nutzungsbedingungen und Verhaltensregeln verstößt, und dürfen nicht solchermaßen eingesetzt werden.

Wenn Sie einen Anwendungsfall für die Computerverwendung auswählen, sollten Die Benutzer zusätzlich zu den oben aufgeführten Aspekten die folgenden Überlegungen berücksichtigen:

  • Vermeiden Sie Szenarien, in denen Aktionen unwiderruflich oder stark folgefähig sind: Dazu gehören, aber nicht beschränkt auf die Möglichkeit, eine E-Mail (z. B. an den falschen Empfänger) zu senden, Dateien zu ändern oder zu löschen, die für Sie wichtig sind, die Möglichkeit, Finanztransaktionen vorzunehmen oder direkt mit externen Diensten zu interagieren, vertrauliche Informationen öffentlich freizugeben, Zugriff auf kritische Systeme zu gewähren, oder Ausführen von Befehlen, die Systemfunktionen oder Sicherheit ändern können.

  • Leistungseinbußen bei erweiterten Verwendungen: Die Computerverwendung eignet sich am besten für Anwendungsfälle zum Ausführen von Aufgaben mit GUIs, z. B. zum Zugreifen auf Websites und Computerdesktops. Es könnte bei komplexeren Aufgaben wie dem Bearbeiten von Code, dem Schreiben umfangreicher Texte und dem Treffen komplexer Entscheidungen möglicherweise nicht gut abschneiden.

  • Sicherstellen einer angemessenen menschlichen Aufsicht und Kontrolle. Erwägen Sie, Kontrollen einzuschließen, die Benutzern helfen, Aktionen in angemessener Zeit zu überprüfen und/oder zu genehmigen, z. B. durch die Überprüfung geplanter Aufgaben oder von Aufrufen an externe Datenquellen, wie es für Ihr System angemessen ist. Erwägen Sie die Einbeziehung von Steuerelementen zur angemessenen Behebung von Systemfehlern, insbesondere in Szenarien mit hohem Risiko und Anwendungsfällen.

  • Klare Definition von Aktionen und zugehörigen Anforderungen. Es kann klar definiert werden, welche Aktionen zulässig sind (Aktionsgrenzen), verboten oder explizite Autorisierung erforderlich sind, um die Verwendung von Computern wie erwartet und mit der geeigneten Ebene der menschlichen Aufsicht zu unterstützen.

  • Klare Definition beabsichtigter Betriebssystemumgebungen. Definieren Sie klar die vorgesehenen Betriebssystemumgebungen (Domänengrenzen), in denen die Computerverwendung so konzipiert ist, dass sie effektiv ausgeführt werden kann.

  • Stellen Sie eine angemessene Verständlichkeit bei der Entscheidungsfindung sicher. Die Bereitstellung von Informationen für Benutzer vor, während und nach dem Ausführen von Aktionen kann ihnen helfen, die Begründung der Aktion zu verstehen oder warum bestimmte Aktionen ausgeführt wurden oder die Anwendung eine bestimmte Art und Weise verhält, wo sie eingreifen und wie Sie Probleme beheben können.

  • Weitere Informationen finden Sie im Leitfaden zur Förderung geeigneter Abhängigkeiten von generativen KI.

Einschränkungen

Bei groß angelegten Natürlichsprachmodellen, Visionsmodellen und Sprachmodellen gibt es Fairness und verantwortungsvolle KI-Probleme zu berücksichtigen. Menschen verwenden Sprache und Bilder, um die Welt zu beschreiben und ihre Überzeugungen, Annahmen, Einstellungen und Werte auszudrücken. Daher enthalten öffentlich verfügbare Text- und Bilddaten, die in der Regel verwendet werden, um umfangreiche Verarbeitung natürlicher Sprachen und Bildgenerierungsmodelle zu trainieren, gesellschaftliche Verzerrungen im Zusammenhang mit Rasse, Geschlecht, Religion, Alter und anderen Gruppen von Personen sowie anderen unerwünschten Inhalten. Ebenso können Sprachmodelle unterschiedliche Genauigkeitsebenen in verschiedenen demografischen Gruppen und Sprachen aufweisen. Diese gesellschaftlichen Verzerrungen spiegeln sich in den Verteilungen von Wörtern, Ausdrücken und syntaktischen Strukturen wider.

Technische Einschränkungen, Betriebsfaktoren und Bereiche

Vorsicht

Beachten Sie, dass dieser Abschnitt illustrative Beispiele enthält, die Ausdrücke und Sprache enthalten, die einige Personen möglicherweise als anstößig finden.

Umfangreiche natürliche Sprach-, Bild- und Sprachmodelle, die mit solchen Daten trainiert wurden, können sich potenziell in einer Weise verhalten, die unfair, unzuverlässig oder anstößig ist, und dadurch Schaden verursachen. Hier sind einige der Möglichkeiten aufgeführt. Wir betonen, dass diese Arten von Schäden nicht gegenseitig ausschließen. Ein einzelnes Modell kann mehrere Arten von Schäden aufweisen, die sich potenziell auf mehrere verschiedene Personengruppen beziehen. Beispiel:

  • Zuteilung: Diese Modelle können auf Eine Weise verwendet werden, die zu unfairer Zuordnung von Ressourcen oder Chancen führt. Beispielsweise können automatisierte Lebenslauf-Screening-Systeme Beschäftigungsmöglichkeiten einem bestimmten Geschlecht vorenthalten, wenn sie auf Lebenslaufdaten geschult werden, die das bestehende Geschlechtsungleichgewicht in einer bestimmten Branche widerspiegeln. Oder die Bildgenerierungsmodelle könnten verwendet werden, um Bilder im Stil eines bekannten Künstlers zu schaffen, was sich auf den Wert der Arbeit des Künstlers oder die Lebensmöglichkeiten des Künstlers auswirken könnte. GPT-4-Visionsmodelle könnten verwendet werden, um individuelle Verhaltensweisen und Muster zu identifizieren, die negative Auswirkungen auf Lebensmöglichkeiten haben könnten.
  • Servicequalität: Die Azure OpenAI-Modelle werden in erster Linie auf englischen Text und Bildern mit englischen Textbeschreibungen trainiert. Andere Sprachen als Englisch werden eine schlechtere Leistung erleben. Englische Sprachsorten mit geringerer Darstellung in den Schulungsdaten können eine schlechtere Leistung als standardamerikanisches Englisch erleben. Die öffentlich verfügbaren Bilder, die zum Trainieren der Modelle der Bildgenerierung verwendet werden, können öffentliche Verzerrungen und andere unerwünschte Inhalte verstärken. Die DALL· E-Modelle können derzeit auch keinen verständlichen Text erzeugen. Sprachmodelle können andere Einschränkungen einführen, z. B. übersetzungen mit dem Flüstermodell in Azure OpenAI sind nur auf die englische Ausgabe beschränkt. Im Allgemeinen sollten Sie bei Sprach-zu-Text-Modellen unbedingt eine Sprache (oder ein Gebietsschema) für jede Audioeingabe angeben, um die Genauigkeit bei der Transkription zu verbessern. Darüber hinaus können die akustische Qualität der Audioeingabe, nicht-sprachliches Rauschen, überlappende Sprache, das Vokabular, Akzente und Einfügefehler auch die Qualität Ihrer Transkription oder Übersetzung beeinträchtigen.
  • Stereotypierend: Diese Modelle können Stereotype verstärken. Wenn sie beispielsweise "Er ist Krankenschwester" und "Sie ist ein Arzt" in eine geschlechtslose Sprache wie Türkisch übersetzen und dann wieder ins Englisch übersetzen, liefern viele maschinelle Übersetzungssysteme die stereotypischen (und falschen) Ergebnisse von "Sie ist Krankenschwester" und "Er ist ein Arzt". Mit DALL· E, beim Generieren eines Bilds, das auf der Aufforderung "Vaterlose Kinder" basiert, könnte das Modell nur Bilder von schwarzen Kindern generieren und schädliche Stereotypen verstärken, die in öffentlich verfügbaren Bildern vorhanden sein könnten. Die GPT-4-Visionsmodelle können auch Stereotype basierend auf dem Inhalt des Eingabebilds verstärken, indem sie sich auf Komponenten des Bilds stützen und Annahmen treffen, die möglicherweise nicht immer wahr sind.
  • Erniedrigend: Die natürlichen Sprach- und Visionsmodelle im Azure OpenAI-Dienst können Menschen herabstufen. Beispielsweise kann ein offenes Inhaltsgenerierungssystem mit unangemessenen oder unzureichenden Entschärfungen Inhalte erzeugen, die anstößig sind oder eine bestimmte Personengruppe herabstufen.
  • Überrepresentation und Unterdarstellung: Die natürlichen Sprach- und Visionsmodelle im Azure OpenAI-Dienst können Personengruppen über- oder unterrepräsentieren oder sogar ihre Darstellung vollständig löschen. Wenn z. B. Textaufforderungen, die das Wort "gay" enthalten, als potenziell schädlich oder anstößig erkannt werden, kann diese Identifizierung zu einer unterrepräsentierten oder sogar Löschung legitimer Bildgenerationen durch oder über die LGBTQIA+ Community führen.
  • Unangemessene oder anstößige Inhalte: Die natürlichen Sprach- und Visionsmodelle im Azure OpenAI-Dienst können andere Arten von unangemessenen oder anstößigen Inhalten erzeugen. Beispiele sind die Möglichkeit, Text zu generieren, der im Kontext des Texts oder der Bildaufforderung unangemessen ist; die Möglichkeit, Bilder zu erstellen, die potenziell schädliche Artefakte wie Hasssymbole enthalten; Bilder, die illegale schädliche Konnotationen; Bilder, die sich auf umstrittene, umstrittene oder ideologisch polarisierende Themen beziehen; Bilder, die manipulativ sind; Bilder, die sexuell belastete Inhalte enthalten, die nicht von sexuellen Inhaltsfiltern abgefangen werden; und Bilder, die sich auf sensible oder emotional belastete Themen beziehen. Ein gutgemeinter Textbefehl könnte beispielsweise darauf abzielen, ein Bild der Skyline von New York mit Wolken und darüberfliegenden Flugzeugen zu schaffen, jedoch unbeabsichtigt Bilder erzeugen, die Gefühle im Zusammenhang mit den Ereignissen vom 11. September hervorrufen.
  • Uninformation und Falschinformationen zu vertraulichen Themen: Da DALL· E und GPT-image-1 sind leistungsstarke Modelle der Bildgenerierung, sie können verwendet werden, um Uninformation und Fehlinformationen zu erzeugen, die schädlich sein können. Beispielsweise könnte ein Benutzer das Modell dazu auffordern, ein Bild eines politischen Führers zu generieren, der an einer gewalttätigen oder sexuellen (oder einfach ungenauen) Handlung beteiligt ist, was schwere Schäden nach sich ziehen könnte, einschließlich, aber nicht beschränkt auf öffentliche Proteste, politische Veränderungen oder gefälschte Nachrichten. Die GPT-4-Visionsmodelle könnten auch in ähnlicher Weise verwendet werden. Das Modell kann Desinformationen oder Falschinformationen zu vertraulichen Themen verstärken, wenn die Eingabeaufforderung solche Informationen ohne Gegenmaßnahmen enthält.
  • Informationssicherheit: Sprach- und Visionsmodellantworten können unsinnige Inhalte generieren oder Inhalte erstellen, die vernünftig klingen, aber in Bezug auf externe Validierungsquellen ungenau sind. Selbst wenn Antworten aus vertrauenswürdigen Quellinformationen gezeichnet werden, können Antworten diesen Inhalt falsch darstellen. Transkriptionen oder Übersetzungen können zu ungenauen Text führen.
  • Falsche Informationen: Azure OpenAI überprüft keine Inhalte, die von Kunden oder Benutzern bereitgestellt werden. Je nachdem, wie Sie Ihre Anwendung entwickelt haben, werden möglicherweise falsche Informationen generiert, es sei denn, Sie haben Gegenmaßnahmen erstellt (siehe bewährte Methoden zur Verbesserung der Systemleistung).

Risiken und Einschränkungen der Feinabstimmung

Wenn Kunden Azure OpenAI-Modelle optimieren, kann sie die Modellleistung und Genauigkeit für bestimmte Aufgaben und Domänen verbessern, aber es können auch neue Risiken und Einschränkungen eingeführt werden, die Kunden beachten sollten. Diese Risiken und Einschränkungen gelten für alle Azure OpenAI-Modelle, die die Feinabstimmung unterstützen. Einige dieser Risiken und Einschränkungen sind:

  • Datenqualität und -darstellung: Die Qualität und Repräsentativität der daten, die für die Feinabstimmung verwendet werden, kann sich auf das Verhalten und die Ausgaben des Modells auswirken. Wenn die Daten laut, unvollständig, veraltet oder schädliche Inhalte wie Stereotype enthalten, kann das Modell diese Probleme erben und ungenaue oder schädliche Ergebnisse erzeugen. Wenn die Daten z. B. Geschlechtsstereotypen enthalten, kann das Modell sie verstärken und sexistische Sprache generieren. Kunden sollten ihre Daten sorgfältig auswählen und vorverarbeiteten, um sicherzustellen, dass sie für die beabsichtigte Aufgabe und Domäne relevant, vielfältig und ausgewogen sind.
  • Modellfestigkeit und Generalisierung: Die Fähigkeit des Modells, verschiedene und komplexe Eingaben und Szenarien zu verarbeiten, kann nach der Feinabstimmung verringert werden, insbesondere, wenn die Daten zu schmal oder spezifisch sind. Das Modell kann sich an die Daten überanpassen und einige seiner generellen Kenntnisse und Fähigkeiten verlieren. Wenn die Daten zum Beispiel nur Sport betreffen, kann das Modell Schwierigkeiten haben, Fragen zu beantworten oder Texte zu anderen Themen zu generieren. Kunden sollten die Leistung und Robustheit des Modells für eine Vielzahl von Eingaben und Szenarien bewerten und das Modell für Aufgaben oder Domänen, die sich außerhalb ihres Gültigkeitsbereichs befinden, vermeiden.
  • Regurgitation: Während Ihre Trainingsdaten nicht für Microsoft oder Kunden von Drittanbietern verfügbar sind, können schlecht abgestimmte Modelle Schulungsdaten erneut oder direkt wiederholen. Die Kunden sind dafür verantwortlich, jegliche personenbezogene oder anderweitig geschützte Informationen aus ihren Schulungsdaten zu entfernen und sollten ihre trainierten Modelle auf Überanpassungen oder anderweitig minderwertige Antworten überprüfen. Um regurgitation zu vermeiden, werden Kunden ermutigt, große und vielfältige Datasets bereitzustellen.
  • Modelltransparenz und Erklärungsfähigkeit: Die Logik und die Begründung des Modells können nach der Feinabstimmung undurchsichtiger und schwieriger zu verstehen sein, insbesondere, wenn die Daten komplex oder abstrakt sind. Ein fein abgestimmtes Modell kann Ergebnisse erzeugen, die unerwartet, inkonsistent oder widersprüchlich sind, und Kunden können möglicherweise nicht erklären, wie oder warum das Modell zu diesen Ausgaben gelangt ist. Wenn es sich bei den Daten beispielsweise um rechtliche oder medizinische Begriffe handelt, kann das Modell Ausgaben generieren, die ungenau oder irreführend sind, und Kunden können sie möglicherweise nicht überprüfen oder rechtfertigen. Kunden sollten die Ergebnisse und das Verhalten des Modells überwachen und prüfen und klare und genaue Informationen und Anleitungen für die Endbenutzer des Modells liefern.

Um die Risiken im Zusammenhang mit erweiterten Feinabstimmungsmodellen zu mindern, haben wir zusätzliche Bewertungsschritte implementiert, um schädliche Inhalte in den Schulungen und Ausgaben fein abgestimmter Modelle zu erkennen und zu verhindern. Die fein abgestimmten Modellauswertungsfilter werden auf vordefinierte Schwellenwerte festgelegt und können nicht von Kunden geändert werden; sie sind nicht an eine benutzerdefinierte Inhaltsfilterkonfiguration gebunden, die Sie möglicherweise erstellt haben.

Einschränkungen für O-Reihen

  • O-Serien-Reasoning-Modelle eignen sich am besten für Anwendungsfälle, die schweres Denken erfordern und bei einigen natürlichen Sprachaufgaben wie persönlichem oder kreativem Schreiben im Vergleich zu früheren AOAI-Modellen möglicherweise nicht gut funktionieren.
  • Die neuen Ursachenfunktionen können bestimmte Arten von Risiken erhöhen, was verfeinerte Methoden und Ansätze für Risikomanagementprotokolle und die Bewertung und Überwachung des Systemverhaltens erfordert. Beispielsweise haben die CoT-Logikfunktionen von o1 Verbesserungen bei der Persuasivität und der einfachen Kontext-Cheming gezeigt.
  • Benutzer könnten feststellen, dass Modelle der Reasoning-Familie mehr Zeit benötigen, um Antworten durchzudenken, und sollten die zusätzliche Zeit und Latenz bei der Entwicklung von Anwendungen berücksichtigen.

Ausführlichere Informationen zu diesen Einschränkungen finden Sie unter openAI o1 System Card und o3-mini System Card.

4o-Einschränkungen

  • Die gpt-4o-realtime-preview Audioübersetzungsfunktionen können nicht englische Sprachen in einem nicht nativen Akzent ausgeben. Dies kann die Effektivität der Sprachleistung in Audioausgaben einschränken. Die Sprachunterstützung ist im Einklang mit vorhandenen GPT-4o-Modellversionen.
  • Benutzer könnten feststellen, dass gpt-4o-realtime-preview in lauten Umgebungen weniger robust ist und sollten deshalb bei der Entwicklung von Anwendungen die Rauschempfindlichkeit berücksichtigen.

Weitere bewährte Methoden finden Sie auf der OpenAI 4o System Card.

4.1 Einschränkungen

  • Die 4.1-Serienmodelle bieten die Möglichkeit, Rückschlussanforderungen mit bis zu 1M-Kontexttoken zu erstellen, einschließlich Bildern. Aufgrund der erweiterten Länge kann es unterschiede im Systemverhalten und den Risiken im Vergleich zu anderen Modellen geben.
  • Benutzer sollten ihre Anwendungen und Anwendungsfälle, die diese längere Kontextfunktion nutzen, gründlich auswerten und testen und diesen zusätzlichen Aufwand bei der Entwicklung von Anwendungen berücksichtigen.

GPT-image-1-Einschränkungen

  • GPT-image-1 unterstützt derzeit keine benutzerdefinierten Richtlinien, z. B. die Konfigurierbarkeit von Inhaltsfiltern.

Risiko und Einschränkungen der Computernutzung (Vorschau)

Überprüfen und kontrollieren Sie die durchgeführten Aktionen: Die Verwendung des Computers kann Fehler machen und unbeabsichtigte Aktionen ausführen. Dies kann darauf zurückzuführen sein, dass das Modell die GUI nicht vollständig versteht, unklare Anweisungen hat oder ein unerwartetes Szenario auftritt.

Sorgfältige Prüfung und Überwachung der Verwendung: Die Computernutzung kann unter bestimmten Umständen Aktionen ohne explizite Autorisierung ausführen, von denen einige ein hohes Risiko darstellen (z. B. Kommunikation senden)

Isoliert auswerten: Es wird empfohlen, die Computerverwendung nur in isolierten Containern ohne Zugriff auf vertrauliche Daten oder Anmeldeinformationen auszuwerten.

Undurchsichtige Entscheidungsprozesse: Da Agenten große Sprachmodelle mit externen Systemen kombinieren, kann das "Warum" hinter ihren Entscheidungen herausfordernd werden. Endbenutzer, die einen solchen Agenten verwenden, der mit dem Computerverwendungsmodell erstellt wurde, könnten es schwierig finden zu verstehen, warum bestimmte Werkzeuge oder Werkzeugkombinationen ausgewählt wurden, um eine Abfrage zu beantworten, was das Vertrauen in die Ausgaben oder Aktionen des Agenten sowie deren Überprüfung erschwert.

Entwicklung von bewährten Methoden und Standards: Wenn Sie Computernutzung verwenden, um ein agentisches System zu erstellen, denken Sie daran, dass Agents eine aufkommende Technologie sind und Anleitungen zur sicheren Integration, zur transparenten Nutzung von Werkzeugen und zur verantwortungsvollen Bereitstellung sich weiterhin entwickeln. Die einhaltung der neuesten bewährten Methoden und Überwachungsverfahren ist entscheidend, da auch gut beabsichtigte Verwendungen ohne fortlaufende Überprüfung und Verfeinerung riskant werden können.

Einschränkungen bei der Azure OpenAI-Auswertung

  • Datenqualität: Beachten Sie bei der Verwendung der Azure OpenAI-Auswertung, dass schlechte Daten zu irreführenden oder unzuverlässigen Auswertungsergebnissen führen können.
  • Konfigurationsqualität: Wenn ein Kunde die Eingabeaufforderung oder Auswertung nicht ordnungsgemäß definiert oder ungültige Auswertungsdaten bereitstellt, sind die Ergebnisse des Azure OpenAI Evaluation-Diensts falsch und ungültig. Ausführliche Informationen zum Einrichten einer Auswertungsausführung finden Sie in der Azure OpenAI-Dokumentation .
  • Eingeschränkter Umfang: Die Azure OpenAI-Auswertung unterstützt nur textbasierte Natürliche Sprachmodelle. Es unterstützt keine Risiko- und Sicherheitsmetriken, um generierte Antworten auf Risiko- und Sicherheitsschweregradbewertungen zu bewerten (z. B. hasserreiche und unfaire Inhalte, sexuelle Inhalte, gewalttätige Inhalte und selbstverletzte Inhalte).

Systemleistung

Bei vielen KI-Systemen wird die Leistung oft in Bezug auf die Genauigkeit definiert, d. h. wie oft das KI-System eine korrekte Vorhersage oder Ausgabe liefert. Bei großflächigen Natürlichsprachmodellen und Visionsmodellen betrachten zwei verschiedene Benutzer möglicherweise dieselbe Ausgabe und haben unterschiedliche Meinungen darüber, wie nützlich oder relevant es ist, was bedeutet, dass die Leistung für diese Systeme flexibler definiert werden muss. Hier betrachten wir die Leistung im Allgemeinen als die Fähigkeit der Anwendung, wie von Ihnen und Ihren Benutzern erwartet zu funktionieren, einschließlich der Vermeidung schädlicher Ergebnisse.

Der Azure OpenAI-Dienst kann eine breite Palette von Anwendungen wie Suche, Klassifizierung, Codegenerierung, Bildgenerierung und Bildverständnis unterstützen, die jeweils mit unterschiedlichen Leistungsmetriken und Entschärfungsstrategien verwendet werden. Es gibt mehrere Schritte, die Sie ausführen können, um einige der Unter "Einschränkungen" aufgeführten Bedenken zu mindern und die Leistung zu verbessern. Weitere wichtige Gegenmaßnahmen werden im Abschnitt Evaluieren und Integrieren von Azure OpenAI für Ihre Verwendung beschrieben.

Bewährte Methoden zur Verbesserung der Systemleistung

  • Beim Entwerfen von Eingabeaufforderungen anzeigen und informieren. Mit Natürlichen Sprachmodellen und Sprachmodellen wird dem Modell klar, welche Art von Ausgaben Sie durch Anweisungen, Beispiele oder eine Kombination der beiden erwarten. Wenn sie möchten, dass das Modell eine Liste von Elementen in alphabetischer Reihenfolge bewertet oder einen Absatz nach Stimmung klassifizieren soll, zeigen Sie das gewünschte Modell an.
  • Halten Sie Ihre Bewerbung sachbezogen. Ordnen Sie sorgfältig Struktur und Bildeingaben auf, um die Wahrscheinlichkeit zu reduzieren, dass unerwünschte Inhalte erzeugt werden, auch wenn ein Benutzer versucht, ihn zu diesem Zweck zu verwenden. So könnten Sie beispielsweise in Ihrer Eingabeaufforderung angeben, dass ein Chatbot nur Unterhaltungen über Mathematik führt und andernfalls mit "Es tut mir leid" antwortet. Ich befürchte, dass ich das nicht beantworten kann." Das Hinzufügen von Adjektiven wie „höflich“ und Beispielen in Ihrem gewünschten Ton zu Ihrer Eingabeaufforderung kann auch dazu beitragen, die Ausgaben zu steuern.
  • Bereitstellen von Qualitätsdaten Wenn Sie mit Text- und Codemodellen versuchen, einen Klassifizierer zu erstellen oder das Modell abzurufen, um einem Muster zu folgen, stellen Sie sicher, dass genügend Beispiele vorhanden sind. Stellen Sie sicher, dass Sie Ihre Beispiele korrekturlesen– das Modell ist in der Regel in der Lage, grundlegende Rechtschreibfehler zu verarbeiten und Ihnen eine Antwort zu geben, aber es kann auch davon ausgehen, dass Fehler beabsichtigt sind, was sich auf die Antwort auswirken könnte. Die Bereitstellung von Qualitätsdaten umfasst auch die Bereitstellung zuverlässiger Daten für Ihr Modell, um Antworten aus Chat- und Frageantwortsystemen zu ziehen.
  • Stellen Sie vertrauenswürdige Daten bereit. Das Abrufen oder Hochladen nicht vertrauenswürdiger Daten in Ihre Systeme kann die Sicherheit Ihrer Systeme oder Anwendungen beeinträchtigen. Um diese Risiken in Ihren anwendbaren Anwendungen (einschließlich Anwendungen, die die Assistenten-API verwenden) zu minimieren, empfehlen wir, LLM-Interaktionen (Eingaben/Ausgaben) zu protokollieren und zu überwachen, um potenzielle Eingabeaufforderungen zu erkennen und zu analysieren, die Benutzereingabe eindeutig zu isolieren, um das Risiko der Eingabeaufforderung zu minimieren, den Zugriff des LLM auf sensible Ressourcen einzuschränken, seine Funktionen auf das erforderliche Minimum zu beschränken und es von kritischen Systemen und Ressourcen zu isolieren. Erfahren Sie mehr über zusätzliche Risikominderungsansätze in der Sicherheitsanleitung für große Sprachmodelle | Microsoft Learn.
  • Konfigurieren Sie Parameter, um die Genauigkeit oder Fundierung der Antworten zu verbessern. Durch das Erweitern von Eingabeaufforderungen mit Daten, die aus vertrauenswürdigen Quellen abgerufen werden , z. B. durch die Verwendung des Azure OpenAI-Features "auf Ihren Daten", kann die Wahrscheinlichkeit, dass falsche Antworten oder falsche Informationen generiert werden, reduziert, aber nicht vollständig ausgeschlossen werden. Schritte, die Sie unternehmen können, um die Genauigkeit der Antworten weiter zu verbessern, umfassen die sorgfältige Auswahl der vertrauenswürdigen und relevanten Datenquelle und das Konfigurieren von benutzerdefinierten Parametern wie "Strenge", "Einschränken von Antworten auf Dateninhalte" und "Anzahl der abgerufenen Dokumente, die berücksichtigt werden müssen" entsprechend Ihren Anwendungsfällen oder Szenarien. Erfahren Sie mehr über das Konfigurieren dieser Einstellungen für Azure OpenAI unter Ihren Daten.
  • Beschränken Sie die Länge, Struktur und Rate von Eingaben und Ausgaben. Das Einschränken der Länge oder Struktur von Eingaben und Ausgaben kann die Wahrscheinlichkeit erhöhen, dass die Anwendung bei der Aufgabe bleibt und potenziell unfaires, unzuverlässiges oder anstößiges Verhalten zumindest teilweise entschärft wird. Weitere Optionen zur Verringerung des Missbrauchsrisikos sind (i) das Einschränken der Eingabequelle (z. B. das Einschränken von Eingaben auf eine bestimmte Domäne oder authentifizierte Benutzer, anstatt für jeden im Internet offen zu sein) und (ii) die Implementierung von Nutzungsratesgrenzwerten.
  • Ermutigen Sie die menschliche Überprüfung von Ausgaben vor der Veröffentlichung oder Verbreitung. Mit generativer KI besteht das Potenzial zum Generieren von Inhalten, die möglicherweise anstößig sind oder nicht mit der betreffenden Aufgabe in Zusammenhang stehen, auch wenn Gegenmaßnahmen vorhanden sind. Um sicherzustellen, dass die generierte Ausgabe die Aufgabe des Benutzers erfüllt, sollten Sie Wege finden, die Benutzer daran zu erinnern, ihre Ausgaben vor der breiten Freigabe auf Qualität zu überprüfen. Diese Praxis kann viele verschiedene Schäden reduzieren, darunter anstößige Materialien, Uninformationen und vieles mehr.
  • Implementieren Sie zusätzliche szenariospezifische Gegenmaßnahmen. Lesen Sie die in der Bewertung und Integration von Azure OpenAI beschriebenen Gegenmaßnahmen für Ihre Verwendung , einschließlich Strategien zur Inhaltsmoderation. Diese Empfehlungen stellen nicht jede für Ihre Anwendung erforderliche Entschärfung dar. Neuere Modelle wie GPT-4o- und O-Serien-Reasoning-Modelle können Antworten in sensiblen Szenarien liefern und eher versuchen, potenziell schädliche Ausgaben in ihren Antworten zu reduzieren, anstatt völlig zu antworten. Es ist wichtig, dieses Verhalten beim Auswerten und Integrieren der Inhaltsmoderation für Ihren Anwendungsfall zu verstehen; Anpassungen des Filterschweregrads können je nach Anwendungsfall erforderlich sein.
  • O-Serien-Begründungsmodelle haben Sicherheitsvorkehrungen, um die Ausgabe von rohem CoT zu verhindern. Wenn Sie versuchen, das unformatierte CoT zu extrahieren, z. B. durch Umgehung dieser Sicherheitsvorkehrungen, verstößt gegen die Akzeptable Nutzungsrichtlinie für Onlinedienste und kann dazu führen, dass der Zugriff auf den Dienst eingeschränkt ist. Ausführlichere Informationen zu bewährten Methoden finden Sie auf der OpenAI o1 System Card und der o3-mini System Card.

Bewährte Methoden und Empfehlungen zur Feinabstimmung

Um die Risiken und Einschränkungen von Feinabstimmungsmodellen in Azure OpenAI zu mindern, empfehlen wir Kunden, einige bewährte Methoden und Richtlinien zu befolgen, z. B.:

  • Datenauswahl und Vorverarbeitung: Kunden sollten ihre Daten sorgfältig auswählen und vorverarbeiten, um sicherzustellen, dass sie für die beabsichtigte Aufgabe und Domäne relevant, vielfältig und ausgewogen sind. Kunden sollten auch vertrauliche oder persönliche Informationen aus den Daten entfernen oder anonymisieren, z. B. Namen, Adressen oder E-Mail-Adressen, um den Datenschutz und die Sicherheit der betroffenen Personen zu schützen. Kunden sollten auch Fehler oder Inkonsistenzen in den Daten überprüfen und korrigieren, z. B. Rechtschreibung, Grammatik oder Formatierung, um die Datenqualität und Lesbarkeit zu verbessern.
  • Fügen Sie eine Systemnachricht in Ihre Schulungsdaten für formatierte Chat-Vervollständigungsmodelle ein, um Ihre Antworten zu steuern und dieselbe Systemnachricht zu verwenden, wenn Sie Ihr fein abgestimmtes Modell für die Ableitung verwenden. Wenn die Systemnachricht leer bleibt, entstehen oft feinabgestimmte Modelle mit geringer Genauigkeit. Wenn man vergisst, dieselbe Systemnachricht bei der Inferenz einzuschließen, kann dies dazu führen, dass das feinabgestimmte Modell auf das Verhalten des Basismodells zurückfällt.
  • Modellauswertung und -tests: Kunden sollten die Leistung und Robustheit des fein abgestimmten Modells auf einer Vielzahl von Eingaben und Szenarien bewerten und testen und mit dem ursprünglichen Modell und anderen Basiswerten vergleichen. Kunden sollten auch geeignete Metriken und Kriterien verwenden, um die Genauigkeit, Zuverlässigkeit und Fairness des Modells zu messen und potenzielle Fehler oder Verzerrungen in den Ausgaben und Verhalten des Modells zu identifizieren.
  • Modelldokumentation und -kommunikation: Kunden sollten den Zweck, den Umfang, die Einschränkungen und Annahmen des Modells dokumentieren und kommunizieren und klare und genaue Informationen und Anleitungen für die Endbenutzer des Modells bereitstellen.

Bewährte Methoden und Empfehlungen für die Azure OpenAI-Bewertung

  • Robuste Daten zur Bodenwahrheit: Im Allgemeinen sollten Kunden ihre Daten sorgfältig auswählen und vorverarbeiteten, um sicherzustellen, dass sie relevant, vielfältig und ausgewogen für die beabsichtigte Aufgabe und Domäne sind. Kunden sollten auch vertrauliche oder persönliche Informationen aus den Daten entfernen oder anonymisieren, z. B. Namen, Adressen oder E-Mail-Adressen, um den Datenschutz und die Sicherheit der betroffenen Personen zu schützen. Kunden sollten auch Fehler oder Inkonsistenzen in den Daten überprüfen und korrigieren, z. B. Rechtschreibung, Grammatik oder Formatierung, um die Datenqualität und Lesbarkeit zu verbessern.
    Speziell für die Azure OpenAI-Auswertung ist die Genauigkeit der vom Benutzer bereitgestellten Boden-Wahrheitsdaten entscheidend, da ungenaue Boden-Wahrheitsdaten zu sinnlosen und ungenauen Auswertungsergebnissen führen. Die Sicherstellung der Qualität und Zuverlässigkeit dieser Daten ist unerlässlich, um gültige Bewertungen der Leistung des Modells zu erhalten. Ungenaue Boden-Wahrheitsdaten können die Auswertungsmetriken verzerren, was zu irreführenden Schlussfolgerungen über die Funktionen des Modells führt. Daher müssen Benutzer ihre Boden-Wahrheitsdaten sorgfältig zusammenstellen und überprüfen, um sicherzustellen, dass der Auswertungsprozess die wahre Leistung des Modells genau widerspiegelt. Dies ist besonders wichtig beim Treffen von Entscheidungen über die Bereitstellung des Modells in realen Anwendungen
  • Eingabeaufforderungsdefinition für die Auswertung: Die Aufforderung, die Sie in Ihrer Auswertung verwenden, sollte mit der Aufforderung übereinstimmen, die Sie in der Produktion verwenden möchten. Diese Eingabeaufforderungen enthalten die Anweisungen für das zu befolgende Modell. Ähnlich wie beim OpenAI-Playground können Sie mehrere Eingaben erstellen, um wenige Beispiele in Ihren Prompt aufzunehmen. Weitere Informationen zu einigen fortgeschrittenen Techniken im Bereich Prompt-Design und Prompt-Engineering finden Sie unter „Prompt-Engineering-Techniken“.
  • Verschiedene Metriken: Verwenden Sie eine Kombination aus Metriken, um verschiedene Aspekte der Leistung wie Genauigkeit, Flukanz und Relevanz zu erfassen.
  • Human-in-the-Loop: Integrieren Sie menschliches Feedback zusammen mit automatisierter Auswertung, um sicherzustellen, dass subjektive Nuancen genau erfasst werden.
  • Transparenz: Vermitteln Sie den Benutzern die Bewertungskriterien klar, sodass sie verstehen können, wie Entscheidungen getroffen werden.
  • Kontinuierliche Auswertung und Tests: Bewerten Sie kontinuierlich die Leistung des Modells, um Regressionen oder negative Benutzererfahrungen zu identifizieren und zu beheben.

Auswerten und Integrieren von natürlichen Azure OpenAI-Sprach- und Visionsmodellen für Ihre Verwendung

Die Schritte zur Durchführung einer Azure OpenAI-Bewertung sind:

  1. Bereitstellen von Daten für die Auswertung: Entweder eine hochgeladene Flache Datei im JSONL-Format oder generierte Daten basierend auf einer Reihe von Eingabeaufforderungen.
  2. Geben Sie Testfälle an, um die Daten auszuwerten: Wählen Sie einen oder mehrere Testfälle aus, um die bereitgestellten Daten mit bestandenen/fehlerhaften Noten zu bewerten.
  3. Überprüfen und Filtern von Ergebnissen: Jeder Test enthält eine Definition der bestandenen und fehlerhaften Ergebnisse. Nachdem eine Auswertung ausgeführt wurde, können Benutzer ihre Ergebnisse zeilenweise überprüfen, um ihre individuellen Testergebnisse anzusehen, oder nach bestandenen/fehlgeschlagenen Ergebnissen filtern.

Weitere Informationen zur Verantwortungsbewertung und Integration dieser Modelle finden Sie im RAI-Übersichtsdokument.

Erfahren Sie mehr über verantwortungsvolle KI

Weitere Informationen zu Azure OpenAI