Transformera och berika data med AI-funktioner

Med Microsoft Fabric AI Functions kan alla affärsproffs (från utvecklare till analytiker) transformera och utöka sina företagsdata med generativ AI.

AI-funktioner använder branschledande stora språkmodeller (LLM) för sammanfattning, klassificering, textgenerering med mera. Med en enda kodrad kan du:

  • ai.analyze_sentiment: Identifiera det känslomässiga tillståndet för indatatext.
  • ai.classify: Kategorisera indatatext enligt dina etiketter.
  • ai.embed: Generera vektorinbäddningar för indatatext.
  • ai.extract: Extrahera specifika typer av information från indatatext (till exempel platser eller namn).
  • ai.fix_grammar: Korrigera stavning, grammatik och skiljetecken för indatatext.
  • ai.generate_response: Generera svar baserat på dina egna instruktioner.
  • ai.similarity: Jämför innebörden av indatatext med ett enda textvärde eller med text i en annan kolumn.
  • ai.summarize: Hämta sammanfattningar av indatatext.
  • ai.translate: Översätta indatatext till ett annat språk.

Du kan införliva dessa funktioner som en del av arbetsflöden för datavetenskap och datateknik, oavsett om du arbetar med Pandas eller Spark. Det finns ingen detaljerad konfiguration och ingen komplex infrastrukturhantering. Du behöver ingen specifik teknisk expertis.

Prerequisites

Note

  • AI-funktioner stöds i Fabric Runtime 1.3 och senare.
  • Om du inte konfigurerar en annan modell är AI-funktioner som standard gpt-4.1-mini. Läs mer om fakturerings- och förbrukningspriser.
  • Även om den underliggande modellen kan hantera flera språk är de flesta AI-funktionerna optimerade för användning på engelskspråkiga texter."

Modeller och leverantörer

AI-funktioner har nu stöd för bredare modeller och leverantörer utöver standardmodellerna för Azure OpenAI. Du kan konfigurera AI-funktioner att använda:

  • Azure OpenAI-modeller
  • Azure AI Foundry-resurser (inklusive modeller som Claude och LLaMA)

Val av modell och leverantör kan konfigureras via AI-funktionskonfigurationen. Mer information om hur du konfigurerar olika modeller och leverantörer finns i konfigurationsdokumentationen för Pandas och PySpark.

Komma igång med AI-funktioner

AI-funktioner kan användas med pandas (Python- och PySpark-körningar) samt med PySpark (PySpark-körning). De nödvändiga installations- och importstegen för var och en beskrivs i följande avsnitt följt av motsvarande kommandon.

Prestanda och samtidighet

AI-funktioner körs nu med ökad standardkonkurritet på 200, vilket möjliggör snabbare parallell bearbetning av AI-åtgärder. Du kan justera samtidighetsinställningar per arbetsbelastning för att optimera prestanda baserat på dina specifika krav. Mer information om hur du konfigurerar samtidighet och andra prestandarelaterade inställningar finns i konfigurationsdokumentationen för Pandas och PySpark.

Installera beroenden

  • Pandas (Python-körningsmiljö)
    • synapseml_internal och synapseml_core krävs installation av whl-filer (kommandon anges i följande kodcell)
    • openai paketinstallation krävs (kommandot anges i följande kodcell)
  • Pandas (PySpark-körtid)
    • openai paketinstallation krävs (kommandot anges i följande kodcell)
  • PySpark (PySpark-runtime)
    • Ingen installation krävs
# The pandas AI functions package requires OpenAI version 1.99.5 or later
%pip install -q --force-reinstall openai==1.99.5 2>/dev/null

Importera nödvändiga bibliotek

Följande kodcell importerar AI-funktionsbiblioteket och dess beroenden.

# Required imports
import synapse.ml.aifunc as aifunc
import pandas as pd

Använda AI-funktioner

Med var och en av följande funktioner kan du anropa den inbyggda AI-slutpunkten i Fabric för att transformera och berika data med en enda kodrad. Du kan använda AI-funktioner för att analysera Pandas DataFrames eller Spark DataFrames.

Tip

Lär dig hur du anpassar konfigurationen av AI-funktioner.

Avancerad konfiguration: När du använder gpt-5-familjemodeller kan du konfigurera avancerade alternativ som reasoning_effort och verbosity. Mer information om hur du anger dessa alternativ finns på konfigurationssidorna för Pandas och PySpark .

Identifiera sentiment med ai.analyze_sentiment

Funktionen ai.analyze_sentiment anropar AI för att identifiera om det känslomässiga tillstånd som uttrycks av indatatext är positivt, negativt, blandat eller neutralt. Om AI inte kan göra den här bedömningen lämnas utdata tomma. Mer detaljerade anvisningar om hur du använder ai.analyze_sentiment med Pandas finns i den här artikeln. För ai.analyze_sentiment med PySpark, se den här artikeln.

Valfria parametrar

Funktionen ai.analyze_sentiment stöder nu ytterligare valfria parametrar som gör att du kan anpassa attitydanalysbeteendet. Dessa parametrar ger mer kontroll över hur sentiment identifieras och rapporteras. Mer information om tillgängliga parametrar, deras beskrivningar och standardvärden finns i den funktionsspecifika dokumentationen för Pandas och PySpark.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "The cleaning spray permanently stained my beautiful kitchen counter. Never again!",
        "I used this sunscreen on my vacation to Florida, and I didn't get burned at all. Would recommend.",
        "I'm torn about this speaker system. The sound was high quality, though it didn't connect to my roommate's phone.",
        "The umbrella is OK, I guess."
    ], columns=["reviews"])

df["sentiment"] = df["reviews"].ai.analyze_sentiment()
display(df)

Skärmbild av en dataram med kolumnerna

Kategorisera text med ai.classify

Funktionen ai.classify anropar AI för att kategorisera indatatext enligt anpassade etiketter som du väljer. Mer information om användningen av ai.classify med Pandas finns i den här artikeln. För ai.classify med PySpark, se den här artikeln.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",
        "Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",
        "Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!"
    ], columns=["descriptions"])

df["category"] = df['descriptions'].ai.classify("kitchen", "bedroom", "garage", "other")
display(df)

Skärmbild av en dataram med kolumnerna

Generera vektorbäddningar med ai.embed

Funktionen ai.embed anropar AI för att generera vektorinbäddningar för indatatext. Vektorinbäddningar är numeriska representationer av text som samlar in semantisk betydelse, vilket gör dem användbara för likhetssökning, hämtning av arbetsflöden och andra maskininlärningsuppgifter. Inbäddningsvektorernas dimensionalitet beror på den valda modellen. Mer detaljerade anvisningar om hur du använder ai.embed med Pandas finns i den här artikeln. För ai.embed med PySpark, se den här artikeln.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",
        "Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",
        "Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!"
    ], columns=["descriptions"])
    
df["embed"] = df["descriptions"].ai.embed()
display(df)

Skärmbild av en dataram med kolumnerna

Extrahera entiteter med ai.extract

Funktionen ai.extract anropar AI för att skanna indatatext och extrahera specifika typer av information som anges av etiketter som du väljer (till exempel platser eller namn). Mer detaljerade anvisningar om hur du använder ai.extract med Pandas finns i den här artikeln. För ai.extract med PySpark, se den här artikeln.

Strukturerade etiketter

Funktionen ai.extract stöder strukturerade etikettdefinitioner via ExtractLabel-schemat. Du kan ange etiketter med strukturerade definitioner som inte bara innehåller etikettnamnet utan även typinformation och attribut. Den här strukturerade metoden förbättrar extraheringskonsekvensen och gör att funktionen kan returnera motsvarande strukturerade utdatakolumner. Du kan till exempel ange etiketter med ytterligare metadata för att styra extraheringsprocessen mer exakt. I den detaljerade dokumentationen för Pandas och PySpark finns exempel på hur du använder strukturerade etiketter.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "MJ Lee lives in Tucson, AZ, and works as a software engineer for Microsoft.",
        "Kris Turner, a nurse at NYU Langone, is a resident of Jersey City, New Jersey."
    ], columns=["descriptions"])

df_entities = df["descriptions"].ai.extract("name", "profession", "city")
display(df_entities)

Skärmbild som visar en ny dataram med kolumnerna

Åtgärda grammatik med ai.fix_grammar

Funktionen ai.fix_grammar anropar AI för att korrigera stavning, grammatik och skiljetecken för indatatext. Mer detaljerade anvisningar om hur du använder ai.fix_grammar med Pandas finns i den här artikeln. För ai.fix_grammar med PySpark, se den här artikeln.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "There are an error here.",
        "She and me go weigh back. We used to hang out every weeks.",
        "The big picture are right, but you're details is all wrong."
    ], columns=["text"])

df["corrections"] = df["text"].ai.fix_grammar()
display(df)

Skärmbild som visar en dataram med en textkolumn och en

Svara på anpassade användarprompter med ai.generate_response

Funktionen ai.generate_response anropar AI för att generera anpassad text baserat på dina egna instruktioner. Mer detaljerade anvisningar om hur du använder ai.generate_response med Pandas finns i den här artikeln. För ai.generate_response med PySpark, se den här artikeln.

Valfria parametrar

Funktionen ai.generate_response stöder nu en response_format parameter som gör att du kan begära strukturerade JSON-utdata. Du kan ange response_format='json' att du vill ta emot svar i JSON-format. Dessutom kan du ange ett JSON-schema för att framtvinga en specifik utdatastruktur, vilket säkerställer att det genererade svaret överensstämmer med din förväntade dataform. Detta är särskilt användbart när du behöver förutsägbara, maskinläsbara utdata från AI-funktionen. Detaljerade exempel och användningsmönster finns i dokumentationen för Pandas och PySpark.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        ("Scarves"),
        ("Snow pants"),
        ("Ski goggles")
    ], columns=["product"])

df["response"] = df.ai.generate_response("Write a short, punchy email subject line for a winter sale.")
display(df)

Skärmbild som visar en dataram med kolumnerna

Beräkna likhet med ai.similarity

Funktionen ai.similarity jämför varje indatatextvärde med en gemensam referenstext eller motsvarande värde i en annan kolumn (parvis läge). Utdatalikhetspoängvärdena är relativa och kan variera från -1 (motsatser) till 1 (identiska). 0 Poängen indikerar att värdena inte har någon betydelse. Mer detaljerade anvisningar om hur du använder ai.similarity med Pandas finns i den här artikeln. För ai.similarity med PySpark, se den här artikeln.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([ 
        ("Bill Gates", "Technology"), 
        ("Satya Nadella", "Healthcare"), 
        ("Joan of Arc", "Agriculture") 
    ], columns=["names", "industries"])
    
df["similarity"] = df["names"].ai.similarity(df["industries"])
display(df)

Skärmbild av en dataram med kolumnerna

Sammanfatta text med ai.summarize

Funktionen ai.summarize anropar AI för att generera sammanfattningar av indatatext (antingen värden från en enda kolumn i en DataFrame eller radvärden i alla kolumner). Mer detaljerade anvisningar om hur du använder ai.summarize med Pandas finns i den här artikeln. För ai.summarize med PySpark, se den här artikeln.

Anpassa sammanfattningar med instruktioner

Funktionen ai.summarize stöder nu en instructions parameter som gör att du kan styra tonen, längden och fokuset för de genererade sammanfattningarna. Du kan ange anpassade instruktioner för hur sammanfattningen ska skapas, till exempel ange ett visst format, målgrupp eller detaljnivå. När instruktioner inte tillhandahålls använder funktionen standardbeteende för summering. Exempel på hur du använder parametern instructions finns i den detaljerade dokumentationen för Pandas och PySpark.

# This code uses AI. Always review output for mistakes.

df= pd.DataFrame([
        ("Microsoft Teams", "2017",
        """
        The ultimate messaging app for your organization—a workspace for real-time 
        collaboration and communication, meetings, file and app sharing, and even the 
        occasional emoji! All in one place, all in the open, all accessible to everyone.
        """),
        ("Microsoft Fabric", "2023",
        """
        An enterprise-ready, end-to-end analytics platform that unifies data movement, 
        data processing, ingestion, transformation, and report building into a seamless, 
        user-friendly SaaS experience. Transform raw data into actionable insights.
        """)
    ], columns=["product", "release_year", "description"])

df["summaries"] = df["description"].ai.summarize()
display(df)

Skärmbild som visar en dataram. Kolumnen

Översätta text med ai.translate

Funktionen ai.translate anropar AI för att översätta indatatext till ett nytt valfritt språk. Mer detaljerade anvisningar om hur du använder ai.translate med Pandas finns i den här artikeln. För ai.translate med PySpark, se den här artikeln.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "Hello! How are you doing today?", 
        "Tell me what you'd like to know, and I'll do my best to help.", 
        "The only thing we have to fear is fear itself."
    ], columns=["text"])

df["translations"] = df["text"].ai.translate("spanish")
display(df)

Skärmbild av en dataram med kolumnerna

Visa användningsstatistik med ai.stats

Fabric AI-funktioner ger ett inbyggt sätt att inspektera användnings- och utförandestatistik för AI-genererade serier eller dataramar. Du kan komma åt dessa mått genom att anropa ai.stats det resultat som returneras av en AI-funktion.

ai.stats returnerar en DataFrame med följande kolumner:

  • num_successful – Antal rader som bearbetades framgångsrikt av AI-funktionen.
  • num_exceptions – Antal rader som stötte på ett undantag under exekveringen. Dessa rader representeras som instanser av aifunc.ExceptionResult.
  • num_unevaluated – Antal rader som inte bearbetades eftersom ett tidigare undantag gjorde det omöjligt att fortsätta utvärderingen. Dessa rader är instanser av aifunc.NotEvaluatedResult.
  • num_harmful – Antal rader som blockeras av Azure OpenAI-innehållsfiltret. Dessa rader är instanser av aifunc.FilterResult.
  • prompt_tokens – Totalt antal indatatoken som används för AI-funktionsanropet.
  • completion_tokens – Totalt antal utdatatoken som genereras av modellen.

Tip

Du kan anropa ai.stats på vilken serie eller dataram som helst som returneras av en AI-funktion. Detta kan hjälpa dig att spåra användning, förstå felmönster och övervaka tokenförbrukning.