Transformácia a obohatenie údajov pomocou funkcií AI

Microsoft Fabric AI Functions umožňujú všetkým obchodným profesionálom (od vývojárov až po analytikov) transformovať a obohacovať svoje podnikové údaje pomocou generatívnej AI.

Funkcie umelej inteligencie používajú špičkové veľké jazykové modely (LLM) na sumarizáciu, klasifikáciu, generovanie textu a ďalšie. Pomocou jedného riadka kódu môžete:

ai.analyze_sentiment: Zistite emocionálny stav vstupného textu.
ai.classify: Kategorizujte vstupný text podľa štítkov.
ai.embed: Generujte vektorové embeddingy pre vstupný text.
ai.extract: Extrahujte konkrétne typy informácií zo vstupného textu (napríklad miesta alebo názvy).
ai.fix_grammar: Oprava pravopisu, gramatiky a interpunkcie vstupného textu.
ai.generate_response: Generujte odpovede na základe vlastných pokynov.
ai.similarity: Porovnanie významu vstupného textu s jednou textovou hodnotou alebo s textom v inom stĺpci.
ai.summarize: Získajte súhrny vstupného textu.
ai.translate: Preklad vstupného textu do iného jazyka.

Tieto funkcie môžete začleniť ako súčasť pracovných postupov dátovej vedy a dátového inžinierstva, či už pracujete s pandami alebo Sparkom. Neexistuje žiadna podrobná konfigurácia a žiadna zložitá správa infraštruktúry. Nepotrebujete žiadne špecifické technické znalosti.

Prerequisites

Ak chcete používať funkcie AI so vstavaným koncovým bodom AI v Fabric, správca musí povoliť prepínač nájomníka pre Copilot a ďalšie funkcie, ktoré využíva Azure OpenAI.
V závislosti od vašej lokality možno budete musieť povoliť nastavenie nájomníka pre spracovanie naprieč geografickými oblasťami. Získajte ďalšie informácie o dostupných oblastiach pre službu Azure OpenAI.
Potrebujete platenú kapacitu Fabric (F2 alebo vyššiu, prípadne ľubovoľné vydanie P).

Note

Funkcie AI sú podporované v prostredí Fabric Runtime 1.3 a novších.
Pokiaľ nenakonfigurujete iný model, funkcie AI sú predvolene nastavené na gpt-4.1-mini. Prečítajte si viac o sadzbách fakturácie a spotreby.
Hoci základný model dokáže spracovať niekoľko jazykov, väčšina funkcií AI je optimalizovaná na použitie v anglických textoch."

Modely a poskytovatelia

Funkcie AI teraz podporujú širšie modely a poskytovateľov nad rámec predvolených modelov Azure OpenAI. Môžete nakonfigurovať AI funkcie tak, aby používali:

Azure OpenAI modely
Azure AI Foundry zdroje (vrátane modelov ako Claude a LLaMA)

Výber modelu a poskytovateľa je konfigurovateľný prostredníctvom konfigurácie AI funkcií. Podrobnosti o tom, ako nastaviť a konfigurovať rôzne modely a poskytovateľov, nájdete v konfiguračnej dokumentácii pre pandas a PySpark.

Začíname s funkciami umelej inteligencie

AI Functions je možné použiť s pandami (moduly runtime Python a PySpark) a s modulom runtime PySpark (modul runtime PySpark). Požadované kroky inštalácie a importu pre každý z nich sú uvedené v nasledujúcej časti, po ktorých nasledujú príslušné príkazy.

Výkon a súbežnosť

Funkcie AI sa teraz vykonávajú so zvýšenou predvolenou súbežnosťou 200, čo umožňuje rýchlejšie paralelné spracovanie AI operácií. Nastavenia súbežnosti môžete ladiť podľa pracovnej záťaže, aby ste optimalizovali výkon podľa vašich konkrétnych požiadaviek. Pre viac informácií o konfigurácii súbežnosti a ďalších nastavení súvisiacich s výkonom si pozrite konfiguračnú dokumentáciu pre pandas a PySpark.

Inštalácia závislostí

Pandas (Python runtime)
- synapseml_internal a vyžaduje sa inštalácia synapseml_core súborov whl (príkazy poskytnuté v nasledujúcej bunke kódu)
- openai vyžaduje sa inštalácia balíka (príkaz uvedený v nasledujúcej bunke kódu)
Pandy (runtime PySpark)
- openai vyžaduje sa inštalácia balíka (príkaz uvedený v nasledujúcej bunke kódu)
PySpark (modul runtime PySpark)
- Nie je potrebná žiadna inštalácia

pandy (runtime PySpark)
pandas (Python runtime)

# The pandas AI functions package requires OpenAI version 1.99.5 or later
%pip install -q --force-reinstall openai==1.99.5 2>/dev/null

# Install latest versions of AI functions library whl
!wget -q https://aka.ms/fabric-aifunctions-whl -O synapseml_internal-latest-py3-none-any.whl
!wget -q https://aka.ms/fabric-synapseml-core-whl -O synapseml_core-latest-py3-none-any.whl

# The pandas AI functions package requires OpenAI version 1.99.5 or later
%pip install -q --force-reinstall openai==1.99.5 synapseml_internal-latest-py3-none-any.whl synapseml_core-latest-py3-none-any.whl

Import požadovaných knižníc

Nasledujúca bunka kódu importuje knižnicu funkcií AI a jej závislosti.

pandas
PySpark

# Required imports
import synapse.ml.aifunc as aifunc
import pandas as pd

import synapse.ml.spark.aifunc as aifunc

# SparkSession with accessor `spark` in PySpark environments is pre-setup and available for use

Použitie funkcií AI

Každá z nasledujúcich funkcií umožňuje vyvolať vstavaný koncový bod AI v službe Fabric na transformáciu a obohatenie údajov pomocou jedného riadku kódu. Funkcie AI môžete použiť na analýzu údajovýchframeov Pandas alebo údajovýchframeov Spark.

Tip

Naučte sa, ako prispôsobiť konfiguráciu funkcií AI.

Pokročilá konfigurácia: Pri použití modelov rodiny GPT-5 môžete nastaviť pokročilé možnosti ako reasoning_effort a verbosity. Podrobnosti o nastavení týchto možností nájdete v konfiguračných stránkach pre pandas a PySpark .

Zisťujte sentiment pomocou ai.analyze_sentiment

Funkcia ai.analyze_sentiment vyvoláva umelú inteligenciu, aby identifikovala, či je emocionálny stav vyjadrený vstupným textom pozitívny, negatívny, zmiešaný alebo neutrálny. Ak AI nedokáže určiť tento výsledok, výstup zostane prázdny. Podrobnejšie pokyny na použitie ai.analyze_sentiment s pandami nájdete v tomto článku. Informácie o ai.analyze_sentiment aplikácii PySpark nájdete v tomto článku.

Voliteľné parametre

Funkcia ai.analyze_sentiment teraz podporuje ďalšie voliteľné parametre, ktoré umožňujú prispôsobiť správanie analýzy sentimentu. Tieto parametre poskytujú väčšiu kontrolu nad tým, ako je sentiment detegovaný a reportovaný. Podrobnosti o dostupných parametroch, ich popisoch a predvolených hodnotách nájdete v dokumentácii špecifickej pre funkcie pre pandas a PySpark.

pandas
PySpark

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "The cleaning spray permanently stained my beautiful kitchen counter. Never again!",
        "I used this sunscreen on my vacation to Florida, and I didn't get burned at all. Would recommend.",
        "I'm torn about this speaker system. The sound was high quality, though it didn't connect to my roommate's phone.",
        "The umbrella is OK, I guess."
    ], columns=["reviews"])

df["sentiment"] = df["reviews"].ai.analyze_sentiment()
display(df)

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("The cleaning spray permanently stained my beautiful kitchen counter. Never again!",),
        ("I used this sunscreen on my vacation to Florida, and I didn't get burned at all. Would recommend.",),
        ("I'm torn about this speaker system. The sound was high quality, though it didn't connect to my roommate's phone.",),
        ("The umbrella is OK, I guess.",)
    ], ["reviews"])

sentiment = df.ai.analyze_sentiment(input_col="reviews", output_col="sentiment")
display(sentiment)

Kategorizácia textu pomocou ai.classify

Funkcia ai.classify vyvolá umelú inteligenciu na kategorizovanie vstupného textu podľa vlastných označení, ktoré vyberiete. Viac informácií o použití ai.classify s pandami nájdete v tomto článku. Informácie o ai.classify aplikácii PySpark nájdete v tomto článku.

pandas
PySpark

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",
        "Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",
        "Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!"
    ], columns=["descriptions"])

df["category"] = df['descriptions'].ai.classify("kitchen", "bedroom", "garage", "other")
display(df)

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",),
        ("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",),
        ("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",)
    ], ["descriptions"])
    
categories = df.ai.classify(labels=["kitchen", "bedroom", "garage", "other"], input_col="descriptions", output_col="categories")
display(categories)

Generujte vektorové vloženia pomocou ai.embed

Funkcia ai.embed volá AI na generovanie vektorových embeddingov pre vstupný text. Vektorové embeddingy sú numerické reprezentácie textu, ktoré zachytávajú sémantický význam, vďaka čomu sú užitočné pre vyhľadávanie podobností, vyhľadávacie pracovné postupy a ďalšie úlohy strojového učenia. Dimenzionalita vložených vektorov závisí od zvoleného modelu. Podrobnejšie pokyny na použitie ai.embed s pandami nájdete v tomto článku. Informácie o ai.embed aplikácii PySpark nájdete v tomto článku.

pandas
PySpark

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",
        "Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",
        "Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!"
    ], columns=["descriptions"])
    
df["embed"] = df["descriptions"].ai.embed()
display(df)

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",), 
        ("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",), 
        ("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",) 
    ], ["descriptions"])

embed = df.ai.embed(input_col="descriptions", output_col="embed")
display(embed)

Extrahujte entity pomocou ai.extract

Funkcia ai.extract vyvolá AI na skenovanie vstupného textu a extrahovanie konkrétnych typov informácií, ktoré sú označené štítkami, ktoré vyberiete (napríklad miesta alebo názvy). Podrobnejšie pokyny na použitie ai.extract s pandami nájdete v tomto článku. Informácie o ai.extract aplikácii PySpark nájdete v tomto článku.

Štruktúrované štítky

Funkcia ai.extract podporuje štruktúrované definície štítkov prostredníctvom schémy ExtractLabel. Môžete poskytnúť štítky so štruktúrovanými definíciami, ktoré zahŕňajú nielen názov štítku, ale aj informácie o typoch a atribúty. Tento štruktúrovaný prístup zlepšuje konzistentnosť extrakcie a umožňuje funkcii vracať zodpovedajúce štruktúrované výstupné stĺpce. Napríklad môžete špecifikovať štítky s ďalšími metadátami, aby ste presnejšie usmernili proces extrakcie. Pozrite si podrobnú dokumentáciu pre pandas a PySpark pre príklady použitia štruktúrovaných štítkov.

pandas
PySpark

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "MJ Lee lives in Tucson, AZ, and works as a software engineer for Microsoft.",
        "Kris Turner, a nurse at NYU Langone, is a resident of Jersey City, New Jersey."
    ], columns=["descriptions"])

df_entities = df["descriptions"].ai.extract("name", "profession", "city")
display(df_entities)

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("MJ Lee lives in Tucson, AZ, and works as a software engineer for Microsoft.",),
        ("Kris Turner, a nurse at NYU Langone, is a resident of Jersey City, New Jersey.",)
    ], ["descriptions"])

df_entities = df.ai.extract(labels=["name", "profession", "city"], input_col="descriptions")
display(df_entities)

Oprava gramatiky pomocou ai.fix_grammar

Funkcia ai.fix_grammar vyvolá umelú inteligenciu na opravu pravopisu, gramatiky a interpunkcie vstupného textu. Podrobnejšie pokyny na použitie ai.fix_grammar s pandami nájdete v tomto článku. Informácie o ai.fix_grammar aplikácii PySpark nájdete v tomto článku.

pandas
PySpark

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "There are an error here.",
        "She and me go weigh back. We used to hang out every weeks.",
        "The big picture are right, but you're details is all wrong."
    ], columns=["text"])

df["corrections"] = df["text"].ai.fix_grammar()
display(df)

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("There are an error here.",),
        ("She and me go weigh back. We used to hang out every weeks.",),
        ("The big picture are right, but you're details is all wrong.",)
    ], ["text"])

corrections = df.ai.fix_grammar(input_col="text", output_col="corrections")
display(corrections)

Odpovedajte na vlastné výzvy používateľov pomocou ai.generate_response

Funkcia ai.generate_response vyvolá umelú inteligenciu a vygeneruje vlastný text na základe vašich vlastných pokynov. Podrobnejšie pokyny na použitie ai.generate_response s pandami nájdete v tomto článku. Informácie o ai.generate_response aplikácii PySpark nájdete v tomto článku.

Voliteľné parametre

Funkcia ai.generate_response teraz podporuje response_format parameter, ktorý vám umožňuje žiadať štruktúrovaný výstup JSON. Môžete si špecifikovať response_format='json' , aby ste dostávali odpovede vo formáte JSON. Okrem toho môžete poskytnúť JSON schému na vynútenie špecifickej výstupnej štruktúry, čím zabezpečíte, že generovaná odpoveď zodpovedá očakávanému tvaru dát. To je obzvlášť užitočné, keď potrebujete predvídateľný, strojovo čitateľný výstup z funkcie AI. Pre podrobné príklady a vzorce používania si pozrite dokumentáciu pre pandy a PySpark.

pandas
PySpark

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        ("Scarves"),
        ("Snow pants"),
        ("Ski goggles")
    ], columns=["product"])

df["response"] = df.ai.generate_response("Write a short, punchy email subject line for a winter sale.")
display(df)

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("Scarves",),
        ("Snow pants",),
        ("Ski goggles",)
    ], ["product"])

responses = df.ai.generate_response(prompt="Write a short, punchy email subject line for a winter sale.", output_col="response")
display(responses)

Vypočítajte podobnosť s ai.similarity

Funkcia ai.similarity porovnáva každú vstupnú textovú hodnotu buď s jedným spoločným referenčným textom, alebo so zodpovedajúcou hodnotou v inom stĺpci (párový režim). Hodnoty skóre podobnosti výstupu sú relatívne a môžu sa pohybovať od -1 (protiklady) po 1 (identické). Skóre označuje 0 , že hodnoty významovo nesúvisia. Podrobnejšie pokyny na použitie ai.similarity s pandami nájdete v tomto článku. Informácie o ai.similarity aplikácii PySpark nájdete v tomto článku.

pandas
PySpark

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([ 
        ("Bill Gates", "Technology"), 
        ("Satya Nadella", "Healthcare"), 
        ("Joan of Arc", "Agriculture") 
    ], columns=["names", "industries"])
    
df["similarity"] = df["names"].ai.similarity(df["industries"])
display(df)

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("Bill Gates", "Technology"), 
        ("Satya Nadella", "Healthcare"), 
        ("Joan of Arc", "Agriculture")
    ], ["names", "industries"])

similarity = df.ai.similarity(input_col="names", other_col="industries", output_col="similarity")
display(similarity)

Zhrnutie textu pomocou ai.summarize

Funkcia ai.summarize vyvolá umelú inteligenciu na generovanie súhrnov vstupného textu (buď hodnoty z jedného stĺpca prvku DataFrame, alebo hodnoty riadkov vo všetkých stĺpcoch). Podrobnejšie pokyny na použitie ai.summarize s pandami nájdete v tomto článku. Informácie o ai.summarize aplikácii PySpark nájdete v tomto článku.

Prispôsobenie súhrnov s inštrukciami

Funkcia ai.summarize teraz podporuje instructions parameter, ktorý vám umožňuje riadiť tón, dĺžku a zameranie generovaných zhrnutí. Môžete poskytnúť vlastné inštrukcie, ktoré usmernia, ako by mal byť súhrn vytvorený, napríklad špecifikovaním konkrétneho štýlu, cieľovej skupiny alebo úrovne detailov. Keď inštrukcie nie sú poskytnuté, funkcia používa predvolené sumarizačné správanie. Pre príklady použitia parametra instructions pozri podrobnú dokumentáciu pre pandas a PySpark.

pandas
PySpark

# This code uses AI. Always review output for mistakes.

df= pd.DataFrame([
        ("Microsoft Teams", "2017",
        """
        The ultimate messaging app for your organization—a workspace for real-time 
        collaboration and communication, meetings, file and app sharing, and even the 
        occasional emoji! All in one place, all in the open, all accessible to everyone.
        """),
        ("Microsoft Fabric", "2023",
        """
        An enterprise-ready, end-to-end analytics platform that unifies data movement, 
        data processing, ingestion, transformation, and report building into a seamless, 
        user-friendly SaaS experience. Transform raw data into actionable insights.
        """)
    ], columns=["product", "release_year", "description"])

df["summaries"] = df["description"].ai.summarize()
display(df)

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("Microsoft Teams", "2017",
        """
        The ultimate messaging app for your organization—a workspace for real-time 
        collaboration and communication, meetings, file and app sharing, and even the 
        occasional emoji! All in one place, all in the open, all accessible to everyone.
        """,),
        ("Microsoft Fabric", "2023",
        """
        An enterprise-ready, end-to-end analytics platform that unifies data movement, 
        data processing, ingestion, transformation, and report building into a seamless, 
        user-friendly SaaS experience. Transform raw data into actionable insights.
        """,)
    ], ["product", "release_year", "description"])

summaries = df.ai.summarize(input_col="description", output_col="summary")
display(summaries)

Preklad textu pomocou ai.translate

Funkcia ai.translate vyvolá umelú inteligenciu, aby preložila vstupný text do nového jazyka podľa vlastného výberu. Podrobnejšie pokyny na použitie ai.translate s pandami nájdete v tomto článku. Informácie o ai.translate aplikácii PySpark nájdete v tomto článku.

pandas
PySpark

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "Hello! How are you doing today?", 
        "Tell me what you'd like to know, and I'll do my best to help.", 
        "The only thing we have to fear is fear itself."
    ], columns=["text"])

df["translations"] = df["text"].ai.translate("spanish")
display(df)

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("Hello! How are you doing today?",),
        ("Tell me what you'd like to know, and I'll do my best to help.",),
        ("The only thing we have to fear is fear itself.",),
    ], ["text"])

translations = df.ai.translate(to_lang="spanish", input_col="text", output_col="translations")
display(translations)

Zobraziť štatistiky používania pomocou ai.stats

Funkcie Fabric AI poskytujú zabudovaný spôsob kontroly štatistík používania a vykonávania pre akúkoľvek AI generovanú sériu alebo DataFrame. K týmto metrikám môžete pristupovať tak, že zavoláte ai.stats výsledok vrátený AI funkciou.

ai.stats vráti DataFrame s nasledujúcimi stĺpcami:

num_successful – Počet riadkov úspešne spracovaných AI funkciou.
num_exceptions – Počet riadkov, ktoré narazili na výnimku počas vykonávania. Tieto riadky sú reprezentované ako inštancie .aifunc.ExceptionResult
num_unevaluated – Počet riadkov, ktoré neboli spracované, pretože skoršia výnimka znemožnila pokračovať v hodnotení. Tieto riadky sú príkladmi aifunc. NevyhodnotenýVýsledok.
num_harmful – Počet riadkov zablokovaných filtrom obsahu Azure OpenAI. Tieto riadky sú inštanciami .aifunc.FilterResult
prompt_tokens – Celkový počet vstupných tokenov použitých pre volanie AI funkcie.
completion_tokens – Celkový počet výstupných tokenov generovaných modelom.

Tip

Môžete volať ai.stats akúkoľvek sériu alebo DataFrame vrátenú AI funkciou. To vám môže pomôcť sledovať používanie, pochopiť chybové vzory a monitorovať spotrebu tokenov.

Zisťovanie nálady pomocou ai.analyze_sentiment in pandas alebo ai.analyze_sentiment in pyspark.
Kategorizácia textu pomocou ai.classify in pandas alebo ai.classify in PySpark.
Generujte vektorové vloženia s ai.embed in pandas alebo ai.embed in PySpark.
Extrahujte entity pomocou ai.extract in pandas alebo ai.extract in PySpark.
Oprava gramatiky pomocou ai.fix_grammar in pandas alebo ai.fix_grammar in PySpark.
Odpovedzte na vlastné výzvy používateľov pomocou ai.generate_response in pandas alebo ai.generate_response in PySpark.
Výpočet podobnosti s ai.similarity in pandas alebo ai.similarity in PySpark.
Zhrnutie textu pomocou ai.summarize in pandas alebo ai.summarize in PySpark.
Preklad textu pomocou ai.translate in pandas alebo ai.translate in PySpark.
Prispôsobte konfiguráciu funkcií AI v pandách alebo konfiguráciu funkcií AI v PySpark .
Chýbala vám funkcia, ktorú potrebujete? Navrhnite ho na fóre Fabric Ideas.

Spätná väzba

Bola táto stránka užitočná?

Last updated on 2025-12-04

Zdieľať cez

Transformácia a obohatenie údajov pomocou funkcií AI

Prerequisites

Modely a poskytovatelia

Začíname s funkciami umelej inteligencie

Výkon a súbežnosť

Inštalácia závislostí

Import požadovaných knižníc

Použitie funkcií AI

Zisťujte sentiment pomocou ai.analyze_sentiment

Voliteľné parametre

Kategorizácia textu pomocou ai.classify

Generujte vektorové vloženia pomocou ai.embed

Extrahujte entity pomocou ai.extract

Štruktúrované štítky

Oprava gramatiky pomocou ai.fix_grammar

Odpovedajte na vlastné výzvy používateľov pomocou ai.generate_response

Voliteľné parametre

Vypočítajte podobnosť s ai.similarity

Zhrnutie textu pomocou ai.summarize

Prispôsobenie súhrnov s inštrukciami

Preklad textu pomocou ai.translate

Zobraziť štatistiky používania pomocou ai.stats

Súvisiaci obsah

Spätná väzba

Ďalšie zdroje