Zdieľať cez


Transformácia a obohatenie údajov pomocou funkcií AI

Microsoft Fabric AI Functions umožňujú všetkým obchodným profesionálom (od vývojárov až po analytikov) transformovať a obohacovať svoje podnikové údaje pomocou generatívnej AI.

Funkcie umelej inteligencie používajú špičkové veľké jazykové modely (LLM) na sumarizáciu, klasifikáciu, generovanie textu a ďalšie. Pomocou jedného riadka kódu môžete:

  • ai.analyze_sentiment: Zistite emocionálny stav vstupného textu.
  • ai.classify: Kategorizujte vstupný text podľa štítkov.
  • ai.embed: Generujte vektorové embeddingy pre vstupný text.
  • ai.extract: Extrahujte konkrétne typy informácií zo vstupného textu (napríklad miesta alebo názvy).
  • ai.fix_grammar: Oprava pravopisu, gramatiky a interpunkcie vstupného textu.
  • ai.generate_response: Generujte odpovede na základe vlastných pokynov.
  • ai.similarity: Porovnanie významu vstupného textu s jednou textovou hodnotou alebo s textom v inom stĺpci.
  • ai.summarize: Získajte súhrny vstupného textu.
  • ai.translate: Preklad vstupného textu do iného jazyka.

Tieto funkcie môžete začleniť ako súčasť pracovných postupov dátovej vedy a dátového inžinierstva, či už pracujete s pandami alebo Sparkom. Neexistuje žiadna podrobná konfigurácia a žiadna zložitá správa infraštruktúry. Nepotrebujete žiadne špecifické technické znalosti.

Prerequisites

Note

  • Funkcie AI sú podporované v prostredí Fabric Runtime 1.3 a novších.
  • Pokiaľ nenakonfigurujete iný model, funkcie AI sú predvolene nastavené na gpt-4.1-mini. Prečítajte si viac o sadzbách fakturácie a spotreby.
  • Hoci základný model dokáže spracovať niekoľko jazykov, väčšina funkcií AI je optimalizovaná na použitie v anglických textoch."

Modely a poskytovatelia

Funkcie AI teraz podporujú širšie modely a poskytovateľov nad rámec predvolených modelov Azure OpenAI. Môžete nakonfigurovať AI funkcie tak, aby používali:

  • Azure OpenAI modely
  • Azure AI Foundry zdroje (vrátane modelov ako Claude a LLaMA)

Výber modelu a poskytovateľa je konfigurovateľný prostredníctvom konfigurácie AI funkcií. Podrobnosti o tom, ako nastaviť a konfigurovať rôzne modely a poskytovateľov, nájdete v konfiguračnej dokumentácii pre pandas a PySpark.

Začíname s funkciami umelej inteligencie

AI Functions je možné použiť s pandami (moduly runtime Python a PySpark) a s modulom runtime PySpark (modul runtime PySpark). Požadované kroky inštalácie a importu pre každý z nich sú uvedené v nasledujúcej časti, po ktorých nasledujú príslušné príkazy.

Výkon a súbežnosť

Funkcie AI sa teraz vykonávajú so zvýšenou predvolenou súbežnosťou 200, čo umožňuje rýchlejšie paralelné spracovanie AI operácií. Nastavenia súbežnosti môžete ladiť podľa pracovnej záťaže, aby ste optimalizovali výkon podľa vašich konkrétnych požiadaviek. Pre viac informácií o konfigurácii súbežnosti a ďalších nastavení súvisiacich s výkonom si pozrite konfiguračnú dokumentáciu pre pandas a PySpark.

Inštalácia závislostí

  • Pandas (Python runtime)
    • synapseml_internal a vyžaduje sa inštalácia synapseml_core súborov whl (príkazy poskytnuté v nasledujúcej bunke kódu)
    • openai vyžaduje sa inštalácia balíka (príkaz uvedený v nasledujúcej bunke kódu)
  • Pandy (runtime PySpark)
    • openai vyžaduje sa inštalácia balíka (príkaz uvedený v nasledujúcej bunke kódu)
  • PySpark (modul runtime PySpark)
    • Nie je potrebná žiadna inštalácia
# The pandas AI functions package requires OpenAI version 1.99.5 or later
%pip install -q --force-reinstall openai==1.99.5 2>/dev/null

Import požadovaných knižníc

Nasledujúca bunka kódu importuje knižnicu funkcií AI a jej závislosti.

# Required imports
import synapse.ml.aifunc as aifunc
import pandas as pd

Použitie funkcií AI

Každá z nasledujúcich funkcií umožňuje vyvolať vstavaný koncový bod AI v službe Fabric na transformáciu a obohatenie údajov pomocou jedného riadku kódu. Funkcie AI môžete použiť na analýzu údajovýchframeov Pandas alebo údajovýchframeov Spark.

Tip

Naučte sa, ako prispôsobiť konfiguráciu funkcií AI.

Pokročilá konfigurácia: Pri použití modelov rodiny GPT-5 môžete nastaviť pokročilé možnosti ako reasoning_effort a verbosity. Podrobnosti o nastavení týchto možností nájdete v konfiguračných stránkach pre pandas a PySpark .

Zisťujte sentiment pomocou ai.analyze_sentiment

Funkcia ai.analyze_sentiment vyvoláva umelú inteligenciu, aby identifikovala, či je emocionálny stav vyjadrený vstupným textom pozitívny, negatívny, zmiešaný alebo neutrálny. Ak AI nedokáže určiť tento výsledok, výstup zostane prázdny. Podrobnejšie pokyny na použitie ai.analyze_sentiment s pandami nájdete v tomto článku. Informácie o ai.analyze_sentiment aplikácii PySpark nájdete v tomto článku.

Voliteľné parametre

Funkcia ai.analyze_sentiment teraz podporuje ďalšie voliteľné parametre, ktoré umožňujú prispôsobiť správanie analýzy sentimentu. Tieto parametre poskytujú väčšiu kontrolu nad tým, ako je sentiment detegovaný a reportovaný. Podrobnosti o dostupných parametroch, ich popisoch a predvolených hodnotách nájdete v dokumentácii špecifickej pre funkcie pre pandas a PySpark.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "The cleaning spray permanently stained my beautiful kitchen counter. Never again!",
        "I used this sunscreen on my vacation to Florida, and I didn't get burned at all. Would recommend.",
        "I'm torn about this speaker system. The sound was high quality, though it didn't connect to my roommate's phone.",
        "The umbrella is OK, I guess."
    ], columns=["reviews"])

df["sentiment"] = df["reviews"].ai.analyze_sentiment()
display(df)

Snímka obrazovky údajového rámca so stĺpcami

Kategorizácia textu pomocou ai.classify

Funkcia ai.classify vyvolá umelú inteligenciu na kategorizovanie vstupného textu podľa vlastných označení, ktoré vyberiete. Viac informácií o použití ai.classify s pandami nájdete v tomto článku. Informácie o ai.classify aplikácii PySpark nájdete v tomto článku.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",
        "Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",
        "Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!"
    ], columns=["descriptions"])

df["category"] = df['descriptions'].ai.classify("kitchen", "bedroom", "garage", "other")
display(df)

Snímka obrazovky údajového rámca so stĺpcami

Generujte vektorové vloženia pomocou ai.embed

Funkcia ai.embed volá AI na generovanie vektorových embeddingov pre vstupný text. Vektorové embeddingy sú numerické reprezentácie textu, ktoré zachytávajú sémantický význam, vďaka čomu sú užitočné pre vyhľadávanie podobností, vyhľadávacie pracovné postupy a ďalšie úlohy strojového učenia. Dimenzionalita vložených vektorov závisí od zvoleného modelu. Podrobnejšie pokyny na použitie ai.embed s pandami nájdete v tomto článku. Informácie o ai.embed aplikácii PySpark nájdete v tomto článku.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",
        "Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",
        "Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!"
    ], columns=["descriptions"])
    
df["embed"] = df["descriptions"].ai.embed()
display(df)

Snímka obrazovky dátového rámca so stĺpcami 'description' a 'embed'. Stĺpec 'embed' obsahuje embed vektory pre popisy.

Extrahujte entity pomocou ai.extract

Funkcia ai.extract vyvolá AI na skenovanie vstupného textu a extrahovanie konkrétnych typov informácií, ktoré sú označené štítkami, ktoré vyberiete (napríklad miesta alebo názvy). Podrobnejšie pokyny na použitie ai.extract s pandami nájdete v tomto článku. Informácie o ai.extract aplikácii PySpark nájdete v tomto článku.

Štruktúrované štítky

Funkcia ai.extract podporuje štruktúrované definície štítkov prostredníctvom schémy ExtractLabel. Môžete poskytnúť štítky so štruktúrovanými definíciami, ktoré zahŕňajú nielen názov štítku, ale aj informácie o typoch a atribúty. Tento štruktúrovaný prístup zlepšuje konzistentnosť extrakcie a umožňuje funkcii vracať zodpovedajúce štruktúrované výstupné stĺpce. Napríklad môžete špecifikovať štítky s ďalšími metadátami, aby ste presnejšie usmernili proces extrakcie. Pozrite si podrobnú dokumentáciu pre pandas a PySpark pre príklady použitia štruktúrovaných štítkov.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "MJ Lee lives in Tucson, AZ, and works as a software engineer for Microsoft.",
        "Kris Turner, a nurse at NYU Langone, is a resident of Jersey City, New Jersey."
    ], columns=["descriptions"])

df_entities = df["descriptions"].ai.extract("name", "profession", "city")
display(df_entities)

Snímka obrazovky zobrazujúca nový údajový rámec so stĺpcami

Oprava gramatiky pomocou ai.fix_grammar

Funkcia ai.fix_grammar vyvolá umelú inteligenciu na opravu pravopisu, gramatiky a interpunkcie vstupného textu. Podrobnejšie pokyny na použitie ai.fix_grammar s pandami nájdete v tomto článku. Informácie o ai.fix_grammar aplikácii PySpark nájdete v tomto článku.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "There are an error here.",
        "She and me go weigh back. We used to hang out every weeks.",
        "The big picture are right, but you're details is all wrong."
    ], columns=["text"])

df["corrections"] = df["text"].ai.fix_grammar()
display(df)

Snímka obrazovky zobrazujúca údajový rámec so stĺpcom

Odpovedajte na vlastné výzvy používateľov pomocou ai.generate_response

Funkcia ai.generate_response vyvolá umelú inteligenciu a vygeneruje vlastný text na základe vašich vlastných pokynov. Podrobnejšie pokyny na použitie ai.generate_response s pandami nájdete v tomto článku. Informácie o ai.generate_response aplikácii PySpark nájdete v tomto článku.

Voliteľné parametre

Funkcia ai.generate_response teraz podporuje response_format parameter, ktorý vám umožňuje žiadať štruktúrovaný výstup JSON. Môžete si špecifikovať response_format='json' , aby ste dostávali odpovede vo formáte JSON. Okrem toho môžete poskytnúť JSON schému na vynútenie špecifickej výstupnej štruktúry, čím zabezpečíte, že generovaná odpoveď zodpovedá očakávanému tvaru dát. To je obzvlášť užitočné, keď potrebujete predvídateľný, strojovo čitateľný výstup z funkcie AI. Pre podrobné príklady a vzorce používania si pozrite dokumentáciu pre pandy a PySpark.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        ("Scarves"),
        ("Snow pants"),
        ("Ski goggles")
    ], columns=["product"])

df["response"] = df.ai.generate_response("Write a short, punchy email subject line for a winter sale.")
display(df)

Snímka obrazovky zobrazujúca údajový rámec so stĺpcami

Vypočítajte podobnosť s ai.similarity

Funkcia ai.similarity porovnáva každú vstupnú textovú hodnotu buď s jedným spoločným referenčným textom, alebo so zodpovedajúcou hodnotou v inom stĺpci (párový režim). Hodnoty skóre podobnosti výstupu sú relatívne a môžu sa pohybovať od -1 (protiklady) po 1 (identické). Skóre označuje 0 , že hodnoty významovo nesúvisia. Podrobnejšie pokyny na použitie ai.similarity s pandami nájdete v tomto článku. Informácie o ai.similarity aplikácii PySpark nájdete v tomto článku.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([ 
        ("Bill Gates", "Technology"), 
        ("Satya Nadella", "Healthcare"), 
        ("Joan of Arc", "Agriculture") 
    ], columns=["names", "industries"])
    
df["similarity"] = df["names"].ai.similarity(df["industries"])
display(df)

Snímka obrazovky údajového rámca so stĺpcami

Zhrnutie textu pomocou ai.summarize

Funkcia ai.summarize vyvolá umelú inteligenciu na generovanie súhrnov vstupného textu (buď hodnoty z jedného stĺpca prvku DataFrame, alebo hodnoty riadkov vo všetkých stĺpcoch). Podrobnejšie pokyny na použitie ai.summarize s pandami nájdete v tomto článku. Informácie o ai.summarize aplikácii PySpark nájdete v tomto článku.

Prispôsobenie súhrnov s inštrukciami

Funkcia ai.summarize teraz podporuje instructions parameter, ktorý vám umožňuje riadiť tón, dĺžku a zameranie generovaných zhrnutí. Môžete poskytnúť vlastné inštrukcie, ktoré usmernia, ako by mal byť súhrn vytvorený, napríklad špecifikovaním konkrétneho štýlu, cieľovej skupiny alebo úrovne detailov. Keď inštrukcie nie sú poskytnuté, funkcia používa predvolené sumarizačné správanie. Pre príklady použitia parametra instructions pozri podrobnú dokumentáciu pre pandas a PySpark.

# This code uses AI. Always review output for mistakes.

df= pd.DataFrame([
        ("Microsoft Teams", "2017",
        """
        The ultimate messaging app for your organization—a workspace for real-time 
        collaboration and communication, meetings, file and app sharing, and even the 
        occasional emoji! All in one place, all in the open, all accessible to everyone.
        """),
        ("Microsoft Fabric", "2023",
        """
        An enterprise-ready, end-to-end analytics platform that unifies data movement, 
        data processing, ingestion, transformation, and report building into a seamless, 
        user-friendly SaaS experience. Transform raw data into actionable insights.
        """)
    ], columns=["product", "release_year", "description"])

df["summaries"] = df["description"].ai.summarize()
display(df)

Snímka obrazovky zobrazujúca údajový rámec. Stĺpec

Preklad textu pomocou ai.translate

Funkcia ai.translate vyvolá umelú inteligenciu, aby preložila vstupný text do nového jazyka podľa vlastného výberu. Podrobnejšie pokyny na použitie ai.translate s pandami nájdete v tomto článku. Informácie o ai.translate aplikácii PySpark nájdete v tomto článku.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "Hello! How are you doing today?", 
        "Tell me what you'd like to know, and I'll do my best to help.", 
        "The only thing we have to fear is fear itself."
    ], columns=["text"])

df["translations"] = df["text"].ai.translate("spanish")
display(df)

Snímka obrazovky údajového rámca so stĺpcami

Zobraziť štatistiky používania pomocou ai.stats

Funkcie Fabric AI poskytujú zabudovaný spôsob kontroly štatistík používania a vykonávania pre akúkoľvek AI generovanú sériu alebo DataFrame. K týmto metrikám môžete pristupovať tak, že zavoláte ai.stats výsledok vrátený AI funkciou.

ai.stats vráti DataFrame s nasledujúcimi stĺpcami:

  • num_successful – Počet riadkov úspešne spracovaných AI funkciou.
  • num_exceptions – Počet riadkov, ktoré narazili na výnimku počas vykonávania. Tieto riadky sú reprezentované ako inštancie .aifunc.ExceptionResult
  • num_unevaluated – Počet riadkov, ktoré neboli spracované, pretože skoršia výnimka znemožnila pokračovať v hodnotení. Tieto riadky sú príkladmi aifunc. NevyhodnotenýVýsledok.
  • num_harmful – Počet riadkov zablokovaných filtrom obsahu Azure OpenAI. Tieto riadky sú inštanciami .aifunc.FilterResult
  • prompt_tokens – Celkový počet vstupných tokenov použitých pre volanie AI funkcie.
  • completion_tokens – Celkový počet výstupných tokenov generovaných modelom.

Tip

Môžete volať ai.stats akúkoľvek sériu alebo DataFrame vrátenú AI funkciou. To vám môže pomôcť sledovať používanie, pochopiť chybové vzory a monitorovať spotrebu tokenov.