Obohacení dat pomocí funkcí AI

Důležité

Tato funkce je ve verzi Public Preview.

AI Functions jsou integrované funkce, které můžete použít k použití LLM nebo nejmodernějších výzkumných technik na data uložená na Azure Databricks pro transformaci a rozšiřování dat. Můžou se spouštět kdekoli v Databricks, včetně Databricks SQL, poznámkových bloků, deklarativních kanálů Sparku Lakeflow a pracovních postupů.

Funkce AI jsou snadno použitelné, rychlé a škálovatelné. Analytici je můžou použít k aplikaci inteligence dat na svá proprietární data, zatímco datoví inženýři, datoví vědci a technici strojového učení je můžou použít k vytváření produkční dávkových pipelines.

Úkolově specifické a pro obecné účely

Funkce AI mají funkce specifické pro úlohy a obecné účely:

  • Funkce AI specifické pro úlohy – účelově vytvořené funkce optimalizované pro konkrétní úlohu, jako je analýza dokumentů, extrakce entit, klasifikace a analýza mínění. Tyto funkce jsou poháněny systémy podporovanými výzkumem spravovanými Azure Databricks. Mezi některé funkce patří uživatelské rozhraní. Podporované funkce a modely najdete v tématu Funkce AI specifické pro úlohy.
  • ai_query — Funkce pro obecné účely pro flexibilitu úkolů a modelů. Zadejte výzvu a zvolte libovolné podporované rozhraní API základního modelu. Viz Použití ai_query.

Rozhodovací strom pro úkolově specifické funkce umělé inteligence a ai_query

funkcí umělé inteligence specifické pro úlohy

Funkce specifické pro úlohy jsou vymezeny pro určitou úlohu, takže můžete automatizovat rutinní transformace, jako je extrakce entit, překlad a klasifikace. Databricks doporučuje tyto funkce pro začátek, protože vyvolávají nejmodernější výzkumné techniky, které udržuje Databricks, a nevyžadují žádné přizpůsobení.

Příklad najdete v tématu Analýza recenzí zákazníků pomocí funkcí AI .

Následující funkce jsou seskupené podle úkolu.

Inteligentní zpracování dokumentů:

Funkce Popis
ai_parse_document Parsujte strukturovaný obsah (text, tabulky, popisy obrázků) a rozložení z nestrukturovaných dokumentů pomocí nejmodernějších výzkumných technik.
ai_extract Pomocí schématu, které definujete, extrahujte strukturovaná pole z dokumentů nebo textu.
ai_classify Klasifikujte vstupní text podle popisků, které poskytujete pomocí nejmodernějších výzkumných technik.
ai_prep_search Transformujte analyzovaný výstup dokumentu na bloky připravené pro vyhledávání, které jsou optimalizované pro vektorové vyhledávání a kanály RAG.

Přeměna textu

Funkce Popis
ai_fix_grammar Opravte gramatické chyby v textu pomocí nejmodernějšího generačního modelu AI.
ai_translate Přeloží text do zadaného cílového jazyka pomocí nejmodernějšího generujícího modelu AI.
ai_summarize Vygenerujte souhrn textu pomocí SQL a nejmodernějšího generujícího modelu AI.
ai_mask Maskuje zadané entity v textu pomocí nejmodernějšího generujícího modelu AI.

Analýza textu:

Funkce Popis
ai_analyze_sentiment Pomocí nejmodernějšího generujícího modelu AI můžete provádět analýzu mínění na vstupním textu.
ai_similarity Porovná dva řetězce a vypočítá sémantické skóre podobnosti pomocí nejmodernějšího generujícího modelu AI.

Vygenerujte obsah. Vlastní výzvy nebo konkrétní model najdete v tématu Použití ai_query:

Funkce Popis
ai_gen Odpovězte na výzvu poskytovanou uživatelem pomocí nejmodernějšího generujícího modelu AI.

Prognóza časových řad:

Funkce Popis
ai_forecast Prognózovat data až k zadanému časovému horizontu. Tato tabulková funkce je navržená k extrapolaci dat časových řad do budoucnosti.

Hledání pomocí vektorových vyhledávacích vkladů:

Funkce Popis
vector_search Prohledávejte a dotazujte se na vyhledávací index Mosaic AI Vector Search pomocí nejmodernějšího generativního AI modelu.

Použití funkcí AI v produkčních pracovních postupech

U rozsáhlých dávkových odvozování můžete integrovat funkce AI specifické pro úlohy nebo funkci ai_query pro obecné účely do produkčních pracovních postupů, jako jsou deklarativní kanály Sparku Lakeflow, pracovní postupy Databricks a strukturované streamování. To umožňuje zpracování na úrovni produkčního prostředí ve velkém měřítku.

Osvědčené postupy pro funkce AI v produkčním prostředí:

Nechte AI Functions zpracovávat úlohy ve velkém měřítku: AI Functions automaticky spravuje paralelizaci, opakování a škálování. Doporučujeme odeslat úplnou datovou sadu do jednoho dotazu a ne ručně ji rozdělit do malých dávek. Výkon se nemusí škálovat lineárně od velmi malých úloh až po rozsáhlé úlohy.

Použijte základní modely hostované službou Databricks: Když používáte AI funkci ai_query, použijte základní modely hostované službou Databricks (s předponou databricks-), a ne zřízenou propustnost. Tyto koncové body bez nutnosti zřizování jsou plně spravované a fungují nejlépe pro dávkové zpracování.

Příklady a podrobnosti najdete v tématu Nasazení kanálů dávkového odvozování .

Monitorování průběhu funkcí AI

Pokud chcete zjistit, kolik odvozování bylo dokončeno nebo selhalo, a řešit potíže s výkonem, můžete sledovat průběh funkcí AI pomocí funkce profilu dotazu.

V Databricks Runtime 16.1 ML a novějších můžete ze svého pracovního prostoru v okně dotazu editoru SQL provádět následující kroky:

  1. Vyberte odkaz Spouštění--- ve spodní části okna Nezpracované výsledky. Napravo se zobrazí okno výkonu .
  2. Kliknutím na Zobrazit profil dotazu zobrazíte podrobnosti o výkonu.
  3. Kliknutím na dotaz AI zobrazíte metriky pro daný dotaz, včetně počtu dokončených a neúspěšných odvozování a celkového času dokončení požadavku.

Zobrazení nákladů na úlohy funkcí AI

Náklady na funkci AI se zaznamenávají jako součást MODEL_SERVING produktu v BATCH_INFERENCE rámci typu nabídky. Příklad dotazu najdete v tématu Zobrazení nákladů na úlohy dávkového odvozování .

Poznámka:

Pro ai_parse_document, ai_extracta ai_classify náklady jsou zaznamenány jako součást AI_FUNCTIONS produktu. Příklad dotazu najdete v Zobrazení nákladů na ai_parse_document spuštění.

Zobrazení nákladů na úlohy dávkového inferenčního zpracování

Následující příklady ukazují, jak filtrovat úlohy dávkového odvozování na základě úloh, výpočetních prostředků, skladů SQL a deklarativních kanálů Sparku Lakeflow.

Podívejte se na Sledování nákladů na obsluhu modelu pro obecné příklady, jak zobrazit náklady na vaše úlohy dávkového odvozování, které používají funkce AI.

Jobs

Následující dotaz ukazuje, které úlohy se používají k dávkovému odvozování pomocí system.workflow.jobs tabulky systems. Viz Monitorování nákladů na úlohy a výkon pomocí systémových tabulek.


SELECT *
FROM system.billing.usage u
  JOIN system.workflow.jobs x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.job_id = x.job_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

Compute

Následující příklad ukazuje, které clustery se používají k dávkovému odvozování pomocí system.compute.clusters tabulky systems.

SELECT *
FROM system.billing.usage u
  JOIN system.compute.clusters x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.cluster_id = x.cluster_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

Deklarativní kanály Sparku Lakeflow

Následující příklad ukazuje, které deklarativní kanály Sparku Lakeflow se používají k dávkovému odvozování pomocí system.lakeflow.pipelines tabulky systems.

SELECT *
FROM system.billing.usage u
  JOIN system.lakeflow.pipelines x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.dlt_pipeline_id = x.pipeline_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

SQL Warehouse

Následující příklad ukazuje, které sklady SQL se používají k dávkovému odvozování pomocí system.compute.warehouses tabulky systems.

SELECT *
FROM system.billing.usage u
  JOIN system.compute.clusters x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.cluster_id = x.cluster_id
  WHERE u.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

Zobrazení nákladů na ai_parse_document spuštění

Následující příklad ukazuje, jak provést dotazování na tabulky fakturačního systému pro zobrazení nákladů na ai_parse_document běhy.


SELECT *
FROM system.billing.usage u
WHERE u.workspace_id = <workspace_id>
  AND u.billing_origin_product = "AI_FUNCTIONS"
  AND u.product_features.ai_functions.ai_function = "AI_PARSE_DOCUMENT";