Del via


Transformere og berike data med AI-funksjoner

Microsoft Fabric AI Functions gjør det mulig for alle forretningsfolk (fra utviklere til analytikere) å transformere og berike bedriftsdataene sine ved hjelp av generativ kunstig intelligens.

AI-funksjoner bruker bransjeledende store språkmodeller (LLM-er) for oppsummering, klassifisering, tekstgenerering og mer. Med én enkelt kodelinje kan du:

  • ai.analyze_sentiment: Oppdag den emosjonelle tilstanden til inndatateksten.
  • ai.classify: Kategoriser inndatatekst i henhold til etikettene dine.
  • ai.embed: Generer vektorinnlegg for inndatatekst.
  • ai.extract: Trekk ut bestemte typer informasjon fra inndatatekst (for eksempel steder eller navn).
  • ai.fix_grammar: Korriger stavemåte, grammatikk og tegnsetting for inndatatekst.
  • ai.generate_response: Generer svar basert på dine egne instruksjoner.
  • ai.similarity: Sammenlign betydningen av inndatatekst med en enkelt tekstverdi, eller med tekst i en annen kolonne.
  • ai.summarize: Få sammendrag av inndatatekst.
  • ai.translate: Oversett inndatatekst til et annet språk.

Du kan innlemme disse funksjonene som en del av arbeidsflyter for datavitenskap og datautvikling, enten du jobber med pandaer eller Spark. Det er ingen detaljert konfigurasjon og ingen kompleks infrastrukturadministrasjon. Du trenger ingen spesifikk teknisk ekspertise.

Prerequisites

Note

  • AI-funksjoner støttes i Fabric Runtime 1.3 og nyere.
  • Med mindre du konfigurerer en annen modell, er AI-funksjoner som standard gpt-4.1-mini. Finn ut mer om fakturerings- og forbrukspriser.
  • Selv om den underliggende modellen kan håndtere flere språk, er de fleste AI-funksjonene optimalisert for bruk på engelskspråklige tekster.»

Modeller og leverandører

AI-funksjoner støtter nå bredere modeller og leverandører utover standard Azure OpenAI-modellene. Du kan konfigurere AI-funksjoner til å bruke:

  • Azure OpenAI-modeller
  • Azure AI Foundry-ressurser (inkludert modeller som Claude og LLaMA)

Valg av modell og leverandør kan konfigureres gjennom konfigurasjonen av AI-funksjoner. For detaljer om hvordan du setter opp og konfigurerer ulike modeller og leverandører, se konfigurasjonsdokumentasjonen for pandas og PySpark.

Komme i gang med AI-funksjoner

AI-funksjoner kan brukes med pandaer (Python- og PySpark-kjøretider) og med PySpark (PySpark-kjøretid). De nødvendige installasjons- og importtrinnene for hver er skissert i den følgende delen, etterfulgt av de tilsvarende kommandoene.

Ytelse og samtidighet

AI-funksjoner utføres nå med økt standard samtidighet på 200, noe som muliggjør raskere parallell prosessering av AI-operasjoner. Du kan justere samtidighetsinnstillinger per arbeidsbelastning for å optimalisere ytelsen basert på dine spesifikke krav. For mer informasjon om konfigurasjon av samtidighet og andre ytelsesrelaterte innstillinger, se konfigurasjonsdokumentasjonen for pandas og PySpark.

Installer avhengigheter

  • Pandaer (Python-kjøretid)
    • synapseml_internal og synapseml_core WHL-filinstallasjon kreves (kommandoer i følgende kodecelle)
    • openai pakkeinstallasjon kreves (kommando i følgende kodecelle)
  • Pandaer (PySpark-kjøretid)
    • openai pakkeinstallasjon kreves (kommando i følgende kodecelle)
  • PySpark (PySpark-kjøretid)
    • Ingen installasjon kreves
# The pandas AI functions package requires OpenAI version 1.99.5 or later
%pip install -q --force-reinstall openai==1.99.5 2>/dev/null

Importer nødvendige biblioteker

Følgende kodecelle importerer AI-funksjonsbiblioteket og dets avhengigheter.

# Required imports
import synapse.ml.aifunc as aifunc
import pandas as pd

Bruk AI-funksjoner

Hver av følgende funksjoner lar deg aktivere det innebygde AI-endepunktet i Fabric for å transformere og berike data med én enkelt kodelinje. Du kan bruke AI-funksjoner til å analysere pandas DataFrames eller Spark DataFrames.

Tip

Lær hvordan du tilpasser konfigurasjonen av AI-funksjoner.

Avansert konfigurasjon: Når du bruker GPT-5-familiemodeller, kan du konfigurere avanserte alternativer som reasoning_effort og verbosity. Se konfigurasjonssidene for pandas og PySpark for detaljer om hvordan du setter disse alternativene.

Oppdage sentiment med ai.analyze_sentiment

Funksjonen ai.analyze_sentiment aktiverer KUNSTIG INTELLIGENS for å identifisere om den emosjonelle tilstanden uttrykt av inndatatekst er positiv, negativ, blandet eller nøytral. Hvis AI ikke kan bestemme dette, blir utdataene stående tomme. For mer detaljerte instruksjoner om bruk av ai.analyze_sentiment med pandaer, se denne artikkelen. For ai.analyze_sentiment med PySpark, se denne artikkelen.

Valgfrie parametere

Funksjonen ai.analyze_sentiment støtter nå flere valgfrie parametere som lar deg tilpasse sentimentanalyse-oppførselen. Disse parameterne gir mer kontroll over hvordan sentiment oppdages og rapporteres. For detaljer om tilgjengelige parametere, deres beskrivelser og standardverdier, se den funksjonsspesifikke dokumentasjonen for pandas og PySpark.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "The cleaning spray permanently stained my beautiful kitchen counter. Never again!",
        "I used this sunscreen on my vacation to Florida, and I didn't get burned at all. Would recommend.",
        "I'm torn about this speaker system. The sound was high quality, though it didn't connect to my roommate's phone.",
        "The umbrella is OK, I guess."
    ], columns=["reviews"])

df["sentiment"] = df["reviews"].ai.analyze_sentiment()
display(df)

Skjermbilde av en dataramme med kolonnene «anmeldelser» og «sentiment». «Sentiment»-kolonnen inkluderer «negativ», «positiv», «blandet» og «nøytral».

Kategoriser tekst med ai.classify

Funksjonen ai.classify aktiverer KUNSTIG INTELLIGENS for å kategorisere inndatatekst i henhold til egendefinerte etiketter du velger. For mer informasjon om bruk av ai.classify med pandaer, gå til denne artikkelen. For ai.classify med PySpark, se denne artikkelen.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",
        "Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",
        "Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!"
    ], columns=["descriptions"])

df["category"] = df['descriptions'].ai.classify("kitchen", "bedroom", "garage", "other")
display(df)

Skjermbilde av en dataramme med «beskrivelser»- og «kategori»-kolonner. «Kategori»-kolonnen viser kategorinavnet for hver beskrivelse.

Generer vektorinnlegginger med ai.embed

Funksjonen ai.embed påkaller AI for å generere vektorinnlegg for inndatatekst. Vektorinnlegginger er numeriske representasjoner av tekst som fanger semantisk betydning, noe som gjør dem nyttige for likhetssøk, innhentingsarbeidsflyter og andre maskinlæringsoppgaver. Dimensjonaliteten til innleiringsvektorene avhenger av den valgte modellen. For mer detaljerte instruksjoner om bruk av ai.embed med pandaer, se denne artikkelen. For ai.embed med PySpark, se denne artikkelen.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",
        "Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",
        "Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!"
    ], columns=["descriptions"])
    
df["embed"] = df["descriptions"].ai.embed()
display(df)

Skjermbilde av en dataramme med kolonnene 'beskrivelser' og 'embed'. Kolonnen 'embed' inneholder embed-vektorer for beskrivelsene.

Trekk ut enheter med ai.extract

Funksjonen ai.extract påkaller AI for å skanne inndatatekst og trekke ut bestemte typer informasjon som er angitt av etiketter du velger (for eksempel plasseringer eller navn). For mer detaljerte instruksjoner om bruk av ai.extract med pandaer, se denne artikkelen. For ai.extract med PySpark, se denne artikkelen.

Strukturerte etiketter

Funksjonen ai.extract støtter strukturerte labeldefinisjoner gjennom ExtractLabel-skjemaet. Du kan gi etiketter med strukturerte definisjoner som ikke bare inkluderer etikettnavnet, men også typeinformasjon og attributter. Denne strukturerte tilnærmingen forbedrer konsistensen i ekstraksjonen og gjør det mulig for funksjonen å returnere tilsvarende strukturerte utdatakolonner. For eksempel kan du spesifisere etiketter med ekstra metadata for å veilede utvinningsprosessen mer presist. Se den detaljerte dokumentasjonen for pandas og PySpark for eksempler på bruk av strukturerte etiketter.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "MJ Lee lives in Tucson, AZ, and works as a software engineer for Microsoft.",
        "Kris Turner, a nurse at NYU Langone, is a resident of Jersey City, New Jersey."
    ], columns=["descriptions"])

df_entities = df["descriptions"].ai.extract("name", "profession", "city")
display(df_entities)

Skjermbilde som viser en ny dataramme med kolonnene «navn», «yrke» og «by», som inneholder dataene som er hentet ut fra den opprinnelige datarammen.

Fiks grammatikk med ai.fix_grammar

Funksjonen ai.fix_grammar aktiverer KUNSTIG INTELLIGENS for å rette stavemåte, grammatikk og tegnsetting av inndatatekst. For mer detaljerte instruksjoner om bruk av ai.fix_grammar med pandaer, se denne artikkelen. For ai.fix_grammar med PySpark, se denne artikkelen.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "There are an error here.",
        "She and me go weigh back. We used to hang out every weeks.",
        "The big picture are right, but you're details is all wrong."
    ], columns=["text"])

df["corrections"] = df["text"].ai.fix_grammar()
display(df)

Skjermbilde som viser en dataramme med en tekstkolonne og en korreksjonskolonne, som har teksten fra tekstkolonnen med korrigert grammatikk.

Svar på egendefinerte brukermeldinger med ai.generate_response

Funksjonen ai.generate_response aktiverer KUNSTIG INTELLIGENS for å generere egendefinert tekst basert på dine egne instruksjoner. For mer detaljerte instruksjoner om bruk av ai.generate_response med pandaer, se denne artikkelen. For ai.generate_response med PySpark, se denne artikkelen.

Valgfrie parametere

Funksjonen ai.generate_response støtter nå en response_format parameter som lar deg be om strukturert JSON-utdata. Du kan spesifisere response_format='json' å motta svar i JSON-format. I tillegg kan du legge til et JSON-skjema for å håndheve en spesifikk utdatastruktur, slik at det genererte svaret samsvarer med forventet dataform. Dette er spesielt nyttig når du trenger forutsigbar, maskinlesbar utdata fra AI-funksjonen. For detaljerte eksempler og bruksmønstre, se dokumentasjonen for pandas og PySpark.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        ("Scarves"),
        ("Snow pants"),
        ("Ski goggles")
    ], columns=["product"])

df["response"] = df.ai.generate_response("Write a short, punchy email subject line for a winter sale.")
display(df)

Skjermbilde som viser en dataramme med kolonnene «produkt» og «svar». «Svar»-kolonnen inneholder en slagkraftig emnelinje for produktet.

Beregn likhet med ai.similarity

Funksjonen ai.similarity sammenligner hver inndatatekstverdi enten med én felles referansetekst eller med den tilsvarende verdien i en annen kolonne (parvis modus). Verdiene for utgangslikhet er relative, og de kan variere fra -1 (motsetninger) til 1 (identiske). En poengsum på 0 indikerer at verdiene ikke er relatert i betydning. For mer detaljerte instruksjoner om bruk av ai.similarity med pandaer, se denne artikkelen. For ai.similarity med PySpark, se denne artikkelen.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([ 
        ("Bill Gates", "Technology"), 
        ("Satya Nadella", "Healthcare"), 
        ("Joan of Arc", "Agriculture") 
    ], columns=["names", "industries"])
    
df["similarity"] = df["names"].ai.similarity(df["industries"])
display(df)

Skjermbilde av en dataramme med kolonnene «navn», «bransjer» og «likhet». «Likhet»-kolonnen har likhetspoeng for navn og bransje.

Oppsummer tekst med ai.summarize

Funksjonen ai.summarize aktiverer AI for å generere sammendrag av inndatatekst (enten verdier fra én enkelt kolonne i en DataFrame eller radverdier på tvers av alle kolonnene). For mer detaljerte instruksjoner om bruk av ai.summarize med pandaer, se denne artikkelen. For ai.summarize med PySpark, se denne artikkelen.

Tilpasning av sammendrag med instruksjoner

Funksjonen ai.summarize støtter nå en instructions parameter som lar deg styre tonen, lengden og fokuset på de genererte sammendragene. Du kan gi skreddersydde instruksjoner for å veilede hvordan sammendraget skal lages, for eksempel ved å spesifisere en bestemt stil, målgruppe eller detaljnivå. Når instruksjoner ikke er gitt, bruker funksjonen standard oppsummeringsoppførsel. For eksempler på bruk av parameteren instructions , se den detaljerte dokumentasjonen for pandas og PySpark.

# This code uses AI. Always review output for mistakes.

df= pd.DataFrame([
        ("Microsoft Teams", "2017",
        """
        The ultimate messaging app for your organization—a workspace for real-time 
        collaboration and communication, meetings, file and app sharing, and even the 
        occasional emoji! All in one place, all in the open, all accessible to everyone.
        """),
        ("Microsoft Fabric", "2023",
        """
        An enterprise-ready, end-to-end analytics platform that unifies data movement, 
        data processing, ingestion, transformation, and report building into a seamless, 
        user-friendly SaaS experience. Transform raw data into actionable insights.
        """)
    ], columns=["product", "release_year", "description"])

df["summaries"] = df["description"].ai.summarize()
display(df)

Skjermbilde som viser en dataramme. «Sammendrag»-kolonnen har bare et sammendrag av «beskrivelse»-kolonnen i den tilsvarende raden.

Oversett tekst med ai.translate

Funksjonen ai.translate aktiverer KUNSTIG INTELLIGENS for å oversette inndatatekst til et nytt språk du ønsker. For mer detaljerte instruksjoner om bruk av ai.translate med pandaer, se denne artikkelen. For ai.translate med PySpark, se denne artikkelen.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "Hello! How are you doing today?", 
        "Tell me what you'd like to know, and I'll do my best to help.", 
        "The only thing we have to fear is fear itself."
    ], columns=["text"])

df["translations"] = df["text"].ai.translate("spanish")
display(df)

Skjermbilde av en dataramme med kolonnene «tekst» og «oversettelser». Kolonnen

Se bruksstatistikk med ai.stats

Fabric AI-funksjoner gir en innebygd måte å inspisere bruks- og utførelsesstatistikk for enhver AI-generert Series eller DataFrame. Du kan få tilgang til disse målingene ved å hente ai.stats inn resultatet som returneres av en AI-funksjon.

ai.stats returnerer en DataFrame med følgende kolonner:

  • num_successful – Antall rader som AI-funksjonen har behandlet med suksess.
  • num_exceptions – Antall rader som møtte et unntak under utførelsen. Disse radene representeres som instanser av aifunc.ExceptionResult.
  • num_unevaluated – Antall rader som ikke ble behandlet fordi et tidligere unntak gjorde det umulig å fortsette evalueringen. Disse radene er eksempler på aifunc. IkkeEvaluertResultat.
  • num_harmful – Antall rader blokkert av Azure OpenAI-innholdsfilteret. Disse radene er forekomster av aifunc.FilterResult.
  • prompt_tokens – Totalt antall input-tokens brukt for AI-funksjonskallet.
  • completion_tokens – Totalt antall utdatatokens generert av modellen.

Tip

Du kan kalle ai.stats på hvilken som helst Series eller DataFrame som returneres av en AI-funksjon. Dette kan hjelpe deg å spore bruk, forstå feilmønstre og overvåke tokenforbruk.