Anpassen von KI-Funktionen mit PySpark

KI-Funktionen sind so konzipiert, dass sie einsatzbereit sind, wobei das zugrunde liegende Modell und die Einstellungen standardmäßig konfiguriert sind. Benutzer, die flexiblere Konfigurationen wünschen, können ihre Lösungen jedoch mit wenigen zusätzlichen Codezeilen anpassen.

Von Bedeutung

KI-Funktionen dienen zur Verwendung in Fabric Runtime 1.3 (Spark 3.5) und höher.
Lesen Sie die Voraussetzungen in diesem Übersichtsartikel, einschließlich der Bibliotheksinstallationen, die vorübergehend für die Verwendung von KI-Funktionen erforderlich sind.
Obwohl das zugrunde liegende Modell mehrere Sprachen verarbeiten kann, sind die meisten KI-Funktionen für die Verwendung in englischsprachigen Texten optimiert.

Hinweis

Dieser Artikel befasst sich mit dem Anpassen von KI-Funktionen mit PySpark. Informationen zum Anpassen von KI-Funktionen mit Pandas finden Sie in diesem Artikel.
Alle KI-Funktionen finden Sie in diesem Übersichtsartikel.

Configurations

Wenn Sie mit KI-Funktionen in PySpark arbeiten, können Sie die OpenAIDefaults Klasse verwenden, um das zugrunde liegende KI-Modell zu konfigurieren, das von allen Funktionen verwendet wird. Einstellungen, die nur pro Funktionsaufruf angewendet werden können, werden im folgenden Abschnitt angegeben.

Parameter	Description	Standard
`concurrency`	Ein Int , das die maximale Anzahl von Zeilen angibt, die parallel mit asynchronen Anforderungen an das Modell verarbeitet werden sollen. Höhere Werte beschleunigen die Verarbeitungszeit (wenn Ihre Kapazität dies aufnehmen kann). Es kann auf bis zu 1.000 eingestellt werden. Dieser Wert muss pro einzelnem KI-Funktionsaufruf festgelegt werden. In Spark gilt dieser Parallelitätswert für jeden Worker.	`50`
`deployment_name`	Ein Zeichenfolgenwert, der den Namen des zugrunde liegenden Modells angibt. Sie können aus Modellen wählen, die von Fabric unterstützt werden. Dieser Wert kann auch auf eine benutzerdefinierte Modellbereitstellung in Azure OpenAI oder Azure AI Foundry festgelegt werden. Im Azure-Portal wird dieser Wert unterRessourcenverwaltungsmodellbereitstellungen> angezeigt. Im Azure AI Foundry-Portal wird der Wert auf der Seite "Bereitstellungen" angezeigt.	`gpt-4.1-mini`
`embedding_deployment_name`	Ein Zeichenfolgenwert, der den Namen der Einbettungsmodellbereitstellung angibt, die KI-Funktionen unterstützt.	`text-embedding-ada-002`
`reasoning_effort`	Teil von OpenAIDefaults. Wird von gpt-5-Serienmodellen für die Anzahl von Schlussfolgerungstoken verwendet, die sie verwenden sollten. Kann auf "None" oder einen Zeichenfolgenwert von "minimal", "low", "medium" oder "high" festgelegt werden.	Nichts
`subscription_key`	Ein API-Schlüssel, der für die Authentifizierung mit Ihrer LLM-Ressource (Large Language Model) verwendet wird. Im Azure-Portal wird dieser Wert im Abschnitt "Schlüssel und Endpunkt " angezeigt.	N/A
`temperature`	Ein numerischer Wert zwischen 0,0 und 1,0. Höhere Temperaturen erhöhen die Zufalls- oder Kreativitätsergebnisse des zugrunde liegenden Modells.	`0.0`
`top_p`	Teil von OpenAIDefaults. Ein float zwischen 0 und 1. Ein niedrigerer Wert (z. B. 0,1) schränkt das Modell so ein, dass nur die wahrscheinlichsten Token berücksichtigt werden, wodurch die Ausgabe deterministischer wird. Ein höherer Wert (z. B. 0,9) ermöglicht vielfältigere und kreativere Ausgaben, indem eine breitere Palette von Tokens eingeschlossen wird.	Nichts
`URL`	Eine URL, die den Endpunkt Ihrer LLM-Ressource angibt. Im Azure-Portal wird dieser Wert im Abschnitt "Schlüssel und Endpunkt " angezeigt. Beispiel: `https://your-openai-endpoint.openai.azure.com/`.	N/A
`verbosity`	Teil von OpenAIDefaults. Wird von Modellen der gpt-5-Serie für die Ausgabelänge verwendet. Kann auf "None" oder einen Zeichenfolgenwert von "low", "medium" oder "high" festgelegt werden.	Nichts

Das folgende Codebeispiel zeigt, wie Sie für einen einzelnen Funktionsaufruf konfigurieren concurrency .

df = spark.createDataFrame([
        ("There are an error here.",),
        ("She and me go weigh back. We used to hang out every weeks.",),
        ("The big picture are right, but you're details is all wrong.",),
    ], ["text"])

results = df.ai.fix_grammar(input_col="text", output_col="corrections", concurrency=200)
display(results)

Im folgenden Codebeispiel wird gezeigt, wie Sie die gpt-5 und andere Begründungsmodelle für alle Funktionen konfigurieren.

from synapse.ml.services.openai import OpenAIDefaults
default_conf = OpenAIDefaults()

default_conf.set_deployment_name("gpt-5")
default_conf.set_temperature(1)  # gpt-5 only accepts default value of temperature
default_conf.set_top_p(1)  # gpt-5 only accepts default value of top_p
default_conf.set_verbosity("low")
default_conf.set_reasoning_effort("low")

Sie können die einzelnen OpenAIDefaults Parameter mit dem folgenden Codebeispiel abrufen und drucken:

print(default_conf.get_deployment_name())
print(default_conf.get_subscription_key())
print(default_conf.get_URL())
print(default_conf.get_temperature())

Sie können die Parameter auch so einfach zurücksetzen, wie Sie sie geändert haben. Im folgenden Codebeispiel wird die KI-Funktionsbibliothek zurückgesetzt, sodass sie den standardmäßigen Fabric LLM-Endpunkt verwendet:

default_conf.reset_deployment_name()
default_conf.reset_subscription_key()
default_conf.reset_URL()
default_conf.reset_temperature()

Benutzerdefinierte Modelle

Auswählen eines anderen unterstützten großen Sprachmodells

Legen Sie das deployment_name Element auf eines der von Fabric unterstützten Modelle fest.

Global im OpenAIDefaults() Objekt:

from synapse.ml.services.openai import OpenAIDefaults
default_conf = OpenAIDefaults()
default_conf.set_deployment_name("<model deployment name>")

Einzeln in jedem KI-Funktionsaufruf:

results = df.ai.translate(
    to_lang="spanish",
    input_col="text",
    output_col="out",
    error_col="error_col",
    deploymentName="<model deployment name>",
)

Auswählen eines anderen unterstützten Einbettungsmodells

Legen Sie die `embedding_deployment_name` auf eines der von `Fabric` unterstützten Modelle fest, wenn Sie `ai.embed` oder `ai.similarity` Funktionen verwenden.

Global im OpenAIDefaults() Objekt:

from synapse.ml.services.openai import OpenAIDefaults
default_conf = OpenAIDefaults()
default_conf.set_embedding_deployment_name("<embedding deployment name>")

Einzeln in jedem KI-Funktionsaufruf:

results = df.ai.embed(
    input_col="english",
    output_col="out",
    deploymentName="<embedding deployment name>",
)

Konfigurieren eines benutzerdefinierten Modellendpunkts

Standardmäßig verwenden KI-Funktionen die Fabric LLM-Endpunkt-API für einheitliche Abrechnung und einfache Einrichtung. Sie können ihren eigenen Modellendpunkt verwenden, indem Sie einen azure OpenAI- oder AsyncOpenAI-kompatiblen Client mit Ihrem Endpunkt und Schlüssel einrichten. Im folgenden Codebeispiel werden Platzhalterwerte verwendet, um ihnen zu zeigen, wie Sie den integrierten Fabric AI-Endpunkt mit den Modellbereitstellungen Ihrer eigenen Microsoft AI Foundry -Ressource (vormals Azure OpenAI) außer Kraft setzen:

from synapse.ml.services.openai import OpenAIDefaults
default_conf = OpenAIDefaults()

default_conf.set_URL("https://<ai-foundry-resource>.openai.azure.com/")
default_conf.set_subscription_key("<API_KEY>")

Im folgenden Codebeispiel werden Platzhalterwerte verwendet, um zu zeigen, wie Sie den integrierten Fabric AI-Endpunkt mit einer benutzerdefinierten Microsoft AI Foundry-Ressource außer Kraft setzen, um Modelle über OpenAI hinaus zu verwenden.

Von Bedeutung

Die Unterstützung für Microsoft AI Foundry-Modelle ist auf Modelle beschränkt, die API unterstützen Chat Completions und Parameter mit JSON-Schema akzeptieren response_format
Die Ausgabe kann je nach Verhalten des ausgewählten KI-Modells variieren. Bitte erkunden Sie die Funktionen anderer Modelle mit entsprechender Vorsicht
Die einbettungsbasierten KI-Funktionen ai.embed und ai.similarity werden bei Verwendung eines KI Foundry-Ressource nicht unterstützt.

import synapse.ml.spark.aifunc.DataFrameExtensions
from synapse.ml.services.openai import OpenAIDefaults

default_conf = OpenAIDefaults()
default_conf.set_URL("https://<ai-foundry-resource>.services.ai.azure.com")  # Use your AI Foundry Endpoint
default_conf.set_subscription_key("<API_KEY>")
default_conf.set_deployment_name("grok-4-fast-non-reasoning")

Konfigurieren Sie mit Pandas KI-Funktionskonfigurationen.
Erkennen Sie die Stimmung mit ai.analyze_sentiment.
Kategorisieren von Text mit ai.classify.
Extrahieren Sie Entitäten mit ai_extract.
Grammatik mit ai.fix_grammarkorrigieren.
Beantworten Sie benutzerdefinierte Benutzeraufforderungen mit ai.generate_response.
Ähnlichkeit berechnen mit ai.similarity.
Fasse den Text mit ai.summarizezusammen.
Übersetzen Sie Text mit ai.translate.
Erfahren Sie mehr über den vollständigen Satz von KI-Funktionen.
Haben wir ein Feature verpasst, das Sie benötigen? Schlagen Sie es im Forum für Fabric-Ideen vor.

Feedback

War diese Seite hilfreich?

Last updated on 2025-11-21