Zdieľať cez


Bezproblémová transformácia a obohatenie údajov pomocou funkcií AI (Preview)

Dôležitý

Táto funkcia je ukážky.

So službou Microsoft Fabric môžu všetci podnikoví odborníci – od vývojárov k analytikom – odvodiť väčšiu hodnotu zo svojich podnikových údajov prostredníctvom generativnej umelej inteligencie pomocou prostredí, ako sú napríklad služby Copilot a údajoví agenti služby Fabric. Vďaka novej množine funkcií AI pre dátové inžinierstvo môžu používatelia služby Fabric teraz využiť silu veľkých jazykových modelov vedúcich v odvetví (LLM) na bezproblémovú transformáciu a obohatenie údajov.

Funkcie AI využívajú funkciu GenAI na sumarizáciu, klasifikáciu, generovanie textu a ešte oveľa viac – to všetko s jedným riadkom kódu:

Bez ohľadu na to, či pracujete s pandas alebo Spark, je bezproblémové začleniť tieto funkcie do pracovných postupov dátovej vedy a dátového inžinierstva. Neexistuje žiadna podrobná konfigurácia, nie je potrebné žiadne komplexné riadenie infraštruktúry a nie sú potrebné žiadne konkrétne technické odborné znalosti.

Predpoklady

  • Ak chcete používať funkcie AI so vstavaným koncovým bodom AI služby Fabric, váš správca musí povoliť prepínač nájomníka pre službu Copilot a ďalšie funkcie, ktoré využívajú služby Azure OpenAI.
  • V závislosti od vašej polohy možno budete musieť povoliť nastavenie nájomníka na spracovanie krížovej geografickej polohy. Ďalšie informácie tu.
  • Potrebujete tiež skladovú jednotku SKU F2 alebo vyššiu jednotku SKU alebo jednotku P SKU. Ak používate skúšobnú jednotku SKU, môžete si priniesť vlastný prostriedok služby Azure Open AI.

Nota

  • Funkcie umelej inteligencie sú podporované v služby Fabric 1.3 a novších verziách.
  • Funkcie AI predvolene používajú model gpt-4o-mini (2024-07-18 ). Ďalšie informácie o vyúčtovaní a spotrebných sadzbách nájdete v tomto článku.
  • Väčšina funkcií AI je optimalizovaná na používanie textov v anglickom jazyku.

Začíname s funkciami umelej inteligencie

Používanie funkcií AI v poznámkových blokoch služby Fabric vyžaduje určité vlastné balíky, ktoré sú predinštalované v režime CLR služby Fabric. Ak chcete nainštalovať a importovať tie naj up-to-date balíky, môžete spustiť nasledujúci kód, ktorý obsahuje najnovšie funkcie a opravy chýb. Potom môžete používať funkcie AI s pandas alebo PySpark, v závislosti od vašich preferencií.

Táto bunka kódu nainštaluje knižnicu funkcií AI a jej závislosti.

Varovanie

Dokončenie vykonávania bunky konfigurácie v PySparku trvá niekoľko minút. Ďakujeme za trpezlivosť.

  • pandas
  • PySpark
# Install fixed version of packages
%pip install -q --force-reinstall openai==1.30 httpx==0.27.0

# Install latest version of SynapseML-core
%pip install -q --force-reinstall https://mmlspark.blob.core.windows.net/pip/1.0.11-spark3.5/synapseml_core-1.0.11.dev1-py2.py3-none-any.whl

# Install SynapseML-Internal .whl with AI functions library from blob storage:
%pip install -q --force-reinstall https://mmlspark.blob.core.windows.net/pip/1.0.11.1-spark3.5/synapseml_internal-1.0.11.1.dev1-py2.py3-none-any.whl

Táto bunka kódu importuje knižnicu funkcií AI a jej závislosti. Bunka pandas tiež importuje voliteľnú knižnicu jazyka Python na zobrazenie vývojových pruhov, ktoré sledujú stav každého volania funkcie AI.

  • pandas
  • PySpark
# Required imports
import synapse.ml.aifunc as aifunc
import pandas as pd
import openai

# Optional import for progress bars
from tqdm.auto import tqdm
tqdm.pandas()

Použitie funkcií AI

Každá z nasledujúcich funkcií vám umožňuje vyvolať vstavaný koncový bod AI služby Fabric na transformáciu a obohatenie údajov jedným riadkom kódu. Funkcie AI môžete použiť na analýzu údajovýchframeov Pandas alebo údajovýchframeov Spark.

Prepitné

Ďalšie informácie o prispôsobovaní konfigurácie funkcií umelej inteligencie nájdete v tomto článku.

Vypočítajte podobnosť s ai.similarity

Funkcia ai.similarity vyvolá umelú inteligenciu na porovnanie vstupných textových hodnôt s jednou bežnou textovou hodnotou alebo s párovými textovými hodnotami v inom stĺpci. Skóre podobnosti výstupu je relatívne a môže byť v rozsahu od -1 (protiklady) po 1 (rovnaký). Skóre 0 označuje, že hodnoty úplne nesúvisia s významom. Podrobnejšie pokyny o používaní ai.similaritynájdete tomto článku.

Vzorové použitie

  • pandas
  • PySpark
# This code uses AI. Always review output for mistakes. 
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/

df = pd.DataFrame([ 
        ("Bill Gates", "Microsoft"), 
        ("Satya Nadella", "Toyota"), 
        ("Joan of Arc", "Nike") 
    ], columns=["names", "companies"])
    
df["similarity"] = df["names"].ai.similarity(df["companies"])
display(df)

Kategorizovanie textu pomocou ai.classify

Funkcia ai.classify vyvolá umelú inteligenciu na kategorizovanie vstupného textu podľa vlastných označení, ktoré vyberiete. Ďalšie informácie o používaní ai.classifynájdete článku.

Vzorové použitie

  • pandas
  • PySpark
# This code uses AI. Always review output for mistakes. 
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/

df = pd.DataFrame([
        "This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",
        "Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",
        "Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!"
    ], columns=["descriptions"])

df["category"] = df['descriptions'].ai.classify("kitchen", "bedroom", "garage", "other")
display(df)

Zistenie nálady pomocou ai.analyze_sentiment

Funkcia ai.analyze_sentiment vyvoláva umelú inteligenciu, aby identifikovala, či je emocionálny stav vyjadrený vstupným textom pozitívny, negatívny, zmiešaný alebo neutrálny. Ak AI nedokáže určiť tento výsledok, výstup zostane prázdny. Podrobnejšie pokyny o používaní ai.analyze_sentimentnájdete tomto článku.

Vzorové použitie

  • pandas
  • PySpark
# This code uses AI. Always review output for mistakes. 
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/

df = pd.DataFrame([
        "The cleaning spray permanently stained my beautiful kitchen counter. Never again!",
        "I used this sunscreen on my vacation to Florida, and I didn't get burned at all. Would recommend.",
        "I'm torn about this speaker system. The sound was high quality, though it didn't connect to my roommate's phone.",
        "The umbrella is OK, I guess."
    ], columns=["reviews"])

df["sentiment"] = df["reviews"].ai.analyze_sentiment()
display(df)

Extrahovanie entít pomocou ai.extract

Funkcia ai.extract vyvolá umelú inteligenciu na skenovanie vstupného textu a extrahovanie konkrétnych typov informácií určených vybranými označeniami – napríklad miestami alebo názvami. Podrobnejšie pokyny o používaní ai.extractnájdete tomto článku.

Vzorové použitie

  • pandas
  • PySpark
# This code uses AI. Always review output for mistakes. 
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/

df = pd.DataFrame([
        "MJ Lee lives in Tuscon, AZ, and works as a software engineer for Microsoft.",
        "Kris Turner, a nurse at NYU Langone, is a resident of Jersey City, New Jersey."
    ], columns=["descriptions"])

df_entities = df["descriptions"].ai.extract("name", "profession", "city")
display(df_entities)

Oprava gramatiky pomocou ai.fix_grammar

Funkcia ai.fix_grammar vyvolá umelú inteligenciu na opravu pravopisu, gramatiky a interpunkcie vstupného textu. Podrobnejšie pokyny o používaní ai.fix_grammarnájdete tomto článku.

Vzorové použitie

  • pandas
  • PySpark
# This code uses AI. Always review output for mistakes. 
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/

df = pd.DataFrame([
        "There are an error here.",
        "She and me go weigh back. We used to hang out every weeks.",
        "The big picture are right, but you're details is all wrong."
    ], columns=["text"])

df["corrections"] = df["text"].ai.fix_grammar()
display(df)

Sumarizácia textu pomocou ai.summarize

Funkcia ai.summarize vyvolá umelú inteligenciu na generovanie súhrnov vstupného textu (buď hodnoty z jedného stĺpca prvku DataFrame, alebo hodnoty riadkov vo všetkých stĺpcoch). Podrobnejšie pokyny o používaní ai.summarizenájdete tomto vyhradenom článku.

Vzorové použitie

  • pandas
  • PySpark
# This code uses AI. Always review output for mistakes. 
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/

df= pd.DataFrame([
        ("Microsoft Teams", "2017",
        """
        The ultimate messaging app for your organization—a workspace for real-time 
        collaboration and communication, meetings, file and app sharing, and even the 
        occasional emoji! All in one place, all in the open, all accessible to everyone.
        """),
        ("Microsoft Fabric", "2023",
        """
        An enterprise-ready, end-to-end analytics platform that unifies data movement, 
        data processing, ingestion, transformation, and report building into a seamless, 
        user-friendly SaaS experience. Transform raw data into actionable insights.
        """)
    ], columns=["product", "release_year", "description"])

df["summaries"] = df["description"].ai.summarize()
display(df)

Preklad textu pomocou ai.translate

Funkcia ai.translate vyvolá umelú inteligenciu, aby preložila vstupný text do nového jazyka podľa vlastného výberu. Podrobnejšie pokyny o používaní ai.translatenájdete tomto článku.

Vzorové použitie

  • pandas
  • PySpark
# This code uses AI. Always review output for mistakes. 
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/

df = pd.DataFrame([
        "Hello! How are you doing today?", 
        "Tell me what you'd like to know, and I'll do my best to help.", 
        "The only thing we have to fear is fear itself."
    ], columns=["text"])

df["translations"] = df["text"].ai.translate("spanish")
display(df)

Odpovedanie na výzvy vlastných používateľov pomocou ai.generate_response

Funkcia ai.generate_response vyvolá umelú inteligenciu a vygeneruje vlastný text na základe vašich vlastných pokynov. Podrobnejšie pokyny o používaní ai.generate_responsenájdete tomto článku.

Vzorové použitie

  • pandas
  • PySpark
# This code uses AI. Always review output for mistakes. 
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/

df = pd.DataFrame([
        ("Scarves"),
        ("Snow pants"),
        ("Ski goggles")
    ], columns=["product"])

df["response"] = df.ai.generate_response("Write a short, punchy email subject line for a winter sale.")
display(df)