Freigeben über


Transformieren und Anreichern von Daten mit KI-Funktionen

Microsoft Fabric AI Functions ermöglichen es allen Geschäftsexperten (von Entwicklern bis zu Analysten), ihre Unternehmensdaten mithilfe von generativer KI zu transformieren und zu bereichern.

KI-Funktionen verwenden branchenführende großsprachliche Modelle (LLMs) zur Zusammenfassung, Klassifizierung, Textgenerierung und vieles mehr. Mit einer einzelnen Codezeile können Sie folgende Aktionen ausführen:

  • ai.analyze_sentiment: Erkennen des emotionalen Zustands von Eingabetext.
  • ai.classify: Kategorisieren Sie Eingabetext nach Ihren Bezeichnungen.
  • ai.embed: Generieren Von Vektoreinbettungen für Eingabetext.
  • ai.extract: Extrahieren Sie bestimmte Arten von Informationen aus Eingabetext (z. B. Speicherorte oder Namen).
  • ai.fix_grammar: Korrigieren Sie die Rechtschreibung, Grammatik und Interpunktion von Eingabetext.
  • ai.generate_response: Generieren Sie Antworten basierend auf Ihren eigenen Anweisungen.
  • ai.similarity: Vergleichen Sie die Bedeutung von Eingabetext mit einem einzelnen Textwert oder mit Text in einer anderen Spalte.
  • ai.summarize: Abrufen von Zusammenfassungen von Eingabetext.
  • ai.translate: Übersetzen von Eingabetext in eine andere Sprache.

Sie können diese Funktionen als Teil von Data Science- und Data Engineering-Workflows integrieren, ganz gleich, ob Sie mit Pandas oder Spark arbeiten. Es gibt keine detaillierte Konfiguration und keine komplexe Infrastrukturverwaltung. Sie benötigen keine spezifische technische Expertise.

Prerequisites

Note

  • KI-Funktionen werden in Fabric Runtime 1.3 und höher unterstützt.
  • Sofern Sie kein anderes Modell konfigurieren, funktionieren KI-Funktionen standardmäßig auf gpt-4.1-mini. Erfahren Sie mehr über Abrechnungs- und Verbrauchsraten.
  • Obwohl das zugrunde liegende Modell mehrere Sprachen verarbeiten kann, sind die meisten KI-Funktionen für die Verwendung in englischsprachigen Texten optimiert."

Modelle und Anbieter

KI-Funktionen unterstützen jetzt umfassendere Modelle und Anbieter, die über die Standardmodelle von Azure OpenAI hinausgehen. Sie können KI-Funktionen für die Verwendung konfigurieren:

  • Azure OpenAI-Modelle
  • Azure AI Foundry-Ressourcen (einschließlich Modelle wie Claude und LLaMA)

Die Modell- und Anbieterauswahl kann über die Konfiguration der KI-Funktionen konfiguriert werden. Ausführliche Informationen zum Einrichten und Konfigurieren verschiedener Modelle und Anbieter finden Sie in der Konfigurationsdokumentation für Pandas und PySpark.

Erste Schritte mit KI-Funktionen

KI-Funktionen können mit Pandas (Python und PySpark Runtime) und mit PySpark (PySpark Runtime) verwendet werden. Die erforderlichen Installations- und Importschritte sind im folgenden Abschnitt beschrieben, gefolgt von den entsprechenden Befehlen.

Leistung und Parallelität

KI-Funktionen werden jetzt mit einer erhöhten Standard-Parallelität von 200 ausgeführt, was eine schnellere parallele Verarbeitung von KI-Operationen ermöglicht. Sie können Parallelitätseinstellungen pro Workload optimieren, um die Leistung basierend auf Ihren spezifischen Anforderungen zu optimieren. Weitere Informationen zum Konfigurieren von Parallelität und anderen leistungsbezogenen Einstellungen finden Sie in der Konfigurationsdokumentation für Pandas und PySpark.

Installieren von Abhängigkeiten

  • Pandas (Python-Laufzeitumgebung)
    • Installation von synapseml_internal und synapseml_core WHL-Dateien erforderlich (Befehle werden in der folgenden Codezelle bereitgestellt)
    • openai Erforderliche Paketinstallation (Befehl in der folgenden Codezelle)
  • Pandas (PySpark Runtime)
    • openai Erforderliche Paketinstallation (Befehl in der folgenden Codezelle)
  • PySpark (PySpark Runtime)
    • Keine Installation erforderlich
# The pandas AI functions package requires OpenAI version 1.99.5 or later
%pip install -q --force-reinstall openai==1.99.5 2>/dev/null

Importieren erforderlicher Bibliotheken

In der folgenden Codezelle werden die KI-Funktionsbibliothek und ihre Abhängigkeiten importiert.

# Required imports
import synapse.ml.aifunc as aifunc
import pandas as pd

Anwenden von KI-Funktionen

Mit jeder der folgenden Funktionen können Sie den integrierten KI-Endpunkt in Fabric aufrufen, um Daten mit einer einzigen Codezeile zu transformieren und zu anreichern. Sie können KI-Funktionen verwenden, um Pandas DataFrames oder Spark DataFrames zu analysieren.

Tip

Erfahren Sie, wie Sie die Konfiguration von KI-Funktionen anpassen.

Erweiterte Konfiguration: Wenn Sie gpt-5-Familienmodelle verwenden, können Sie erweiterte Optionen wie reasoning_effort und verbosity konfigurieren. Details zum Festlegen dieser Optionen finden Sie auf den Konfigurationsseiten für Pandas und PySpark .

Erkennen der Stimmung mit ai.analyze_sentiment

Die ai.analyze_sentiment Funktion ruft KI auf, um festzustellen, ob der durch Eingabetext ausgedrückte emotionale Zustand positiv, negativ, gemischt oder neutral ist. Wenn KI diese Bestimmung nicht vornehmen kann, bleibt die Ausgabe leer. Ausführlichere Anweisungen zur Verwendung von ai.analyze_sentiment Pandas finden Sie in diesem Artikel. Informationen ai.analyze_sentiment zu PySpark finden Sie in diesem Artikel.

Optionale Parameter

Die ai.analyze_sentiment Funktion unterstützt jetzt zusätzliche optionale Parameter, mit denen Sie das Verhalten der Stimmungsanalyse anpassen können. Diese Parameter bieten mehr Kontrolle darüber, wie die Stimmung erkannt und gemeldet wird. Ausführliche Informationen zu verfügbaren Parametern, deren Beschreibungen und Standardwerten finden Sie in der funktionsspezifischen Dokumentation für Pandas und PySpark.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "The cleaning spray permanently stained my beautiful kitchen counter. Never again!",
        "I used this sunscreen on my vacation to Florida, and I didn't get burned at all. Would recommend.",
        "I'm torn about this speaker system. The sound was high quality, though it didn't connect to my roommate's phone.",
        "The umbrella is OK, I guess."
    ], columns=["reviews"])

df["sentiment"] = df["reviews"].ai.analyze_sentiment()
display(df)

Screenshot eines Datenrahmens mit Spalten

Kategorisieren von Text mit ai.klassifizieren

Die ai.classify Funktion ruft KI auf, um Eingabetext nach benutzerdefinierten Bezeichnungen zu kategorisieren, die Sie auswählen. Weitere Informationen zur Nutzung von ai.classify mit Pandas finden Sie in diesem Artikel. Informationen ai.classify zu PySpark finden Sie in diesem Artikel.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",
        "Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",
        "Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!"
    ], columns=["descriptions"])

df["category"] = df['descriptions'].ai.classify("kitchen", "bedroom", "garage", "other")
display(df)

Screenshot eines Datenrahmens mit den Spalten

Generieren von Vektoreinbettungen mit ai.embed

Die ai.embed Funktion ruft KI auf, um Vektoreinbettungen für Eingabetext zu generieren. Vektoreinbettungen sind numerische Darstellungen von Text, die die semantische Bedeutung erfassen, wodurch sie für Ähnlichkeitssuche, Abrufworkflows und andere maschinelle Lernaufgaben nützlich sind. Die Dimensionalität der Einbettungsvektoren hängt vom ausgewählten Modell ab. Ausführlichere Anweisungen zur Verwendung von ai.embed Pandas finden Sie in diesem Artikel. Informationen ai.embed zu PySpark finden Sie in diesem Artikel.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",
        "Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",
        "Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!"
    ], columns=["descriptions"])
    
df["embed"] = df["descriptions"].ai.embed()
display(df)

Screenshot eines Datenrahmens mit den Spalten

Extrahieren von Entitäten mit ai.extract

Die ai.extract Funktion ruft KI auf, um Eingabetext zu scannen und bestimmte Arten von Informationen zu extrahieren, die durch von Ihnen ausgewählte Bezeichnungen festgelegt werden (z. B. Speicherorte oder Namen). Ausführlichere Anweisungen zur Verwendung von ai.extract Pandas finden Sie in diesem Artikel. Informationen ai.extract zu PySpark finden Sie in diesem Artikel.

Strukturierte Bezeichnungen

Die ai.extract Funktion unterstützt strukturierte Bezeichnungsdefinitionen über das ExtractLabel-Schema. Sie können Bezeichnungen mit strukturierten Definitionen bereitstellen, die nicht nur den Bezeichnungsnamen, sondern auch Typinformationen und Attribute enthalten. Dieser strukturierte Ansatz verbessert die Extraktionskonsistenz und ermöglicht es der Funktion, entsprechend strukturierte Ausgabespalten zurückzugeben. Beispielsweise können Sie Bezeichnungen mit zusätzlichen Metadaten angeben, um den Extraktionsprozess genauer zu leiten. Beispiele für die Verwendung strukturierter Etiketten finden Sie in der detaillierten Dokumentation für Pandas und PySpark .

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "MJ Lee lives in Tucson, AZ, and works as a software engineer for Microsoft.",
        "Kris Turner, a nurse at NYU Langone, is a resident of Jersey City, New Jersey."
    ], columns=["descriptions"])

df_entities = df["descriptions"].ai.extract("name", "profession", "city")
display(df_entities)

Screenshot eines neuen Datenrahmens mit den Spalten

Korrigieren der Grammatik mit ai.fix_grammar

Die ai.fix_grammar Funktion ruft KI auf, um die Rechtschreibung, Grammatik und Interpunktion von Eingabetext zu korrigieren. Ausführlichere Anweisungen zur Verwendung von ai.fix_grammar Pandas finden Sie in diesem Artikel. Informationen ai.fix_grammar zu PySpark finden Sie in diesem Artikel.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "There are an error here.",
        "She and me go weigh back. We used to hang out every weeks.",
        "The big picture are right, but you're details is all wrong."
    ], columns=["text"])

df["corrections"] = df["text"].ai.fix_grammar()
display(df)

Screenshot eines Datenrahmens mit einer Spalte

Beantworten von benutzerdefinierten Benutzeraufforderungen mit ai.generate_response

Die ai.generate_response Funktion ruft KI auf, um benutzerdefinierten Text basierend auf Ihren eigenen Anweisungen zu generieren. Ausführlichere Anweisungen zur Verwendung von ai.generate_response Pandas finden Sie in diesem Artikel. Informationen ai.generate_response zu PySpark finden Sie in diesem Artikel.

Optionale Parameter

Die ai.generate_response Funktion unterstützt jetzt einen response_format Parameter, mit dem Sie eine strukturierte JSON-Ausgabe anfordern können. Sie können angeben response_format='json' , dass Antworten im JSON-Format empfangen werden sollen. Darüber hinaus können Sie ein JSON-Schema bereitstellen, um eine bestimmte Ausgabestruktur zu erzwingen, um sicherzustellen, dass die generierte Antwort dem erwarteten Daten-Shape entspricht. Dies ist besonders nützlich, wenn Sie vorhersehbare, maschinenlesbare Ausgaben aus der KI-Funktion benötigen. Ausführliche Beispiele und Verwendungsmuster finden Sie in der Dokumentation für Pandas und PySpark.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        ("Scarves"),
        ("Snow pants"),
        ("Ski goggles")
    ], columns=["product"])

df["response"] = df.ai.generate_response("Write a short, punchy email subject line for a winter sale.")
display(df)

Screenshot eines Datenrahmens mit den Spalten

Berechnen der Ähnlichkeit mit ai.similarity

Die ai.similarity Funktion vergleicht jeden Eingabetextwert entweder mit einem gemeinsamen Bezugstext oder mit dem entsprechenden Wert in einer anderen Spalte (paarweiser Modus). Die Werte der Ausgabeverknäufungsbewertung sind relativ und können von -1 (Gegensätzen) bis 1 (identisch) liegen. Eine Bewertung von 0 weist darauf hin, dass die Werte in der Bedeutung nicht miteinander verknüpft sind. Ausführlichere Anweisungen zur Verwendung von ai.similarity Pandas finden Sie in diesem Artikel. Informationen ai.similarity zu PySpark finden Sie in diesem Artikel.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([ 
        ("Bill Gates", "Technology"), 
        ("Satya Nadella", "Healthcare"), 
        ("Joan of Arc", "Agriculture") 
    ], columns=["names", "industries"])
    
df["similarity"] = df["names"].ai.similarity(df["industries"])
display(df)

Screenshot eines Datenrahmens mit den Spalten

Zusammenfassen von Text mit ai.summarize

Die ai.summarize Funktion ruft KI auf, um Zusammenfassungen von Eingabetext zu generieren (werte aus einer einzelnen Spalte eines DataFrames oder Zeilenwerte in allen Spalten). Ausführlichere Anweisungen zur Verwendung von ai.summarize Pandas finden Sie in diesem Artikel. Informationen ai.summarize zu PySpark finden Sie in diesem Artikel.

Zusammenfassungen anpassen mit Anweisungen

Die ai.summarize Funktion unterstützt jetzt einen instructions Parameter, mit dem Sie den Ton, die Länge und den Fokus der generierten Zusammenfassungen steuern können. Sie können benutzerdefinierte Anweisungen bereitstellen, um zu erläutern, wie die Zusammenfassung erstellt werden soll, z. B. angeben einer bestimmten Formatvorlage, Zielgruppe oder Detailebene. Wenn keine Anweisungen bereitgestellt werden, verwendet die Funktion standardmäßiges Zusammenfassungsverhalten. Beispiele für die Verwendung des instructions Parameters finden Sie in der detaillierten Dokumentation zu Pandas und PySpark.

# This code uses AI. Always review output for mistakes.

df= pd.DataFrame([
        ("Microsoft Teams", "2017",
        """
        The ultimate messaging app for your organization—a workspace for real-time 
        collaboration and communication, meetings, file and app sharing, and even the 
        occasional emoji! All in one place, all in the open, all accessible to everyone.
        """),
        ("Microsoft Fabric", "2023",
        """
        An enterprise-ready, end-to-end analytics platform that unifies data movement, 
        data processing, ingestion, transformation, and report building into a seamless, 
        user-friendly SaaS experience. Transform raw data into actionable insights.
        """)
    ], columns=["product", "release_year", "description"])

df["summaries"] = df["description"].ai.summarize()
display(df)

Screenshot eines Datenrahmens. Die Spalte

Übersetzen von Text mit ai.translate

Die ai.translate Funktion ruft KI auf, um Eingabetext in eine neue Sprache Ihrer Wahl zu übersetzen. Ausführlichere Anweisungen zur Verwendung von ai.translate Pandas finden Sie in diesem Artikel. Informationen ai.translate zu PySpark finden Sie in diesem Artikel.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "Hello! How are you doing today?", 
        "Tell me what you'd like to know, and I'll do my best to help.", 
        "The only thing we have to fear is fear itself."
    ], columns=["text"])

df["translations"] = df["text"].ai.translate("spanish")
display(df)

Screenshot eines Datenrahmens mit den Spalten

Anzeigen von Nutzungsstatistiken mit ai.stats

Fabric AI-Funktionen bieten eine integrierte Möglichkeit zum Überprüfen von Nutzungs- und Ausführungsstatistiken für alle KI-generierten Datenreihen oder DataFrames. Sie können auf diese Metriken zugreifen, indem Sie das von einer KI-Funktion zurückgegebene Ergebnis aufrufen ai.stats .

ai.stats gibt einen DataFrame mit den folgenden Spalten zurück:

  • num_successful – Anzahl der zeilen, die von der KI-Funktion erfolgreich verarbeitet wurden.
  • num_exceptions – Anzahl der Zeilen, bei denen während der Ausführung eine Ausnahme aufgetreten ist. Diese Zeilen werden als Instanzen von aifunc.ExceptionResult dargestellt.
  • num_unevaluated – Anzahl der Zeilen, die nicht verarbeitet wurden, weil eine frühere Ausnahme dazu führte, dass die Auswertung nicht fortgesetzt werden konnte. Diese Zeilen sind Instanzen von "aifunc.NotEvaluatedResult".
  • num_harmful – Anzahl der zeilen, die vom Azure OpenAI-Inhaltsfilter blockiert wurden. Diese Zeilen sind Instanzen von aifunc.FilterResult.
  • prompt_tokens – Gesamtanzahl der eingabetoken, die für den AI-Funktionsaufruf verwendet werden.
  • completion_tokens – Gesamtanzahl der vom Modell generierten Ausgabetoken.

Tip

Sie können ai.stats für jede von einer KI-Funktion zurückgegebene Serie oder DataFrame aufrufen. Dies kann Ihnen helfen, die Verwendung nachzuverfolgen, Fehlermuster zu verstehen und den Tokenverbrauch zu überwachen.