AI a strojové učení v Databricks

Článek
10/05/2024

Tento článek popisuje nástroje, které společnost Mosaic AI (dříve Databricks Machine Learning) poskytuje k vytváření systémů AI a ML. Diagram znázorňuje, jak různé produkty na platformě Databricks pomáhají implementovat kompletní pracovní postupy pro sestavování a nasazování systémů AI a ML.

Diagram strojového učení: Vývoj a nasazení modelů v Databricks

Generování umělé inteligence v Databricks

Společnost Mosaic AI sjednocuje životní cyklus AI od shromažďování a přípravy dat až po vývoj modelů a LLMOps a obsluhuje a monitoruje. Následující funkce jsou speciálně optimalizované pro usnadnění vývoje generovaných aplikací AI:

Katalog Unity pro zásady správného řízení, zjišťování, správu verzí a řízení přístupu pro data, funkce, modely a funkce.
MLflow pro sledování vývoje modelů a vyhodnocení LLM.
Rozhraní API pro nasazení LLMs slouží k vytvoření modelu AI. Můžete nakonfigurovat koncový bod obsluhující model speciálně pro přístup k generativním modelům AI:
- Nejmodernější otevřené LLM pomocí rozhraní API základního modelu
- Modely třetích stran hostované mimo Databricks Podívejte se na externí modely obsluhy modelu AI v systému Mosaic AI.
Funkce Mosaic AI Vector Search poskytuje dotazovatelnou vektorovou databázi, která ukládá vložené vektory a je možné ji nakonfigurovat tak, aby se automaticky synchronizovala s znalostní báze.
Monitorování Lakehouse pro monitorování dat a sledování kvality predikce modelu a posun pomocí automatického protokolování datové části s tabulkami odvozování
AI Playground pro testování generativních modelů AI z pracovního prostoru Databricks Můžete zobrazit výzvu, porovnat a upravit nastavení, jako jsou systémové výzvy a parametry odvozovat.
Mosaic AI Model Training (dříve Foundation Model Training) pro přizpůsobení základního modelu pomocí vlastních dat pro optimalizaci výkonu pro vaši konkrétní aplikaci.
Rozhraní AI Agent Framework pro sestavování a nasazování agentů pro produkční kvalitu, jako jsou aplikace RAG (Retrieval Augmented Generation).
Hodnocení agenta AI pro vyhodnocení kvality, nákladů a latence generovaných aplikací umělé inteligence, včetně aplikací RAG a řetězců

Co je generativní AI?

Generování umělé inteligence je typ umělé inteligence zaměřený na schopnost počítačů používat modely k vytváření obsahu, jako jsou obrázky, text, kód a syntetická data.

Generování aplikací umělé inteligence je postavené na generovaných modelech AI: velkých jazykových modelů (LLM) a základních modelech.

LLM jsou modely hlubokého učení, které využívají a trénují masivní datové sady, aby excelovaly v úlohách zpracování jazyka. Vytvoří nové kombinace textu, které napodobují přirozený jazyk na základě trénovacích dat.
Základní modely jsou velké modely ML předem natrénované se záměrem, že je potřeba je doladit pro konkrétnější porozumění jazyku a generování úloh. Tyto modely se používají k rozlišení vzorů ve vstupních datech.

Jakmile tyto modely dokončí své procesy učení, společně generují statisticky pravděpodobné výstupy po zobrazení výzvy a mohou být použity k provádění různých úkolů, včetně:

Generování obrázků založené na existujících imagích nebo použití stylu jednoho obrázku k úpravě nebo vytvoření nové.
Úlohy řeči, jako je přepis, překlad, generování otázek a odpovědí a interpretace záměru nebo významu textu.

Důležité

I když mnoho modelů LLM nebo jiných modelů generující umělé inteligence chrání, můžou stále generovat škodlivé nebo nepřesné informace.

Generování umělé inteligence má následující vzory návrhu:

Příprava výzvy: Vytváření specializovaných výzev k vedení chování LLM
Načítání rozšířené generace (RAG): Kombinování LLM s externími načteními znalostí
Vyladění: Přizpůsobení předem natrénovaného LLM konkrétním datovým sadám domén
Pre-training: Training an LLM from scratch

Strojové učení v Databricks

S Platformou Mosaic AI slouží každá platforma pro vývoj a nasazení ML od nezpracovaných dat až po tabulky odvozování, které ukládají všechny požadavky a odpovědi na obsluhovaný model. Datoví vědci, datoví inženýři, technici ML a DevOps můžou své úlohy provádět pomocí stejné sady nástrojů a jediného zdroje pravdy pro data.

Rozhraní AI sjednotí datovou vrstvu a platformu ML. Všechny datové prostředky a artefakty, jako jsou modely a funkce, jsou zjistitelné a řízené v jednom katalogu. Použití jedné platformy pro data a modely umožňuje sledovat rodokmen z nezpracovaných dat do produkčního modelu. Integrované monitorování dat a modelů ukládá metriky kvality do tabulek, které jsou také uložené na platformě, což usnadňuje identifikaci původní příčiny problémů s výkonem modelu. Další informace o tom, jak Databricks podporuje celý životní cyklus ML a MLOps, najdete v pracovních postupech MLOps v Azure Databricks a MLOps Stacks: proces vývoje modelů jako kód.

Mezi klíčové komponenty platformy datové inteligence patří:

Úlohy	Komponenta
Řízení a správa dat, funkcí, modelů a funkcí Také zjišťování, správa verzí a rodokmen.	Katalog Unity
Sledování změn dat, kvality dat a kvality předpovědi modelu	Lakehouse Monitoring, odvozovací tabulky
Vývoj a správa funkcí	Příprava a obsluha funkcí
Trénování modelů	Databricks AutoML, poznámkové bloky Databricks
Sledování vývoje modelů	Sledování MLflow
Obsluha vlastních modelů	Obsluha modelu AI s architekturou AI.
Vytváření automatizovaných pracovních postupů a kanálů ETL připravených pro produkční prostředí	Úlohy Databricks
Integrace Gitu	Složky Gitu pro Databricks

Hluboké učení v Databricks

Konfigurace infrastruktury pro aplikace hlubokého učení může být obtížná. Databricks Runtime pro Machine Learning se postará o to za vás a clustery s integrovanými kompatibilními verzemi nejběžnějších knihoven hlubokého učení, jako jsou TensorFlow, PyTorch a Keras.

Clustery Databricks Runtime ML také zahrnují předem nakonfigurovanou podporu GPU s ovladači a podpůrnými knihovnami. Podporuje také knihovny, jako je Ray , aby paralelizoval výpočetní zpracování pro škálování pracovních postupů ML a aplikací ML.

Clustery Databricks Runtime ML také zahrnují předem nakonfigurovanou podporu GPU s ovladači a podpůrnými knihovnami. Rozhraní AI Model Serving umožňuje vytvářet škálovatelné koncové body GPU pro modely hlubokého učení bez další konfigurace.

Pro aplikace strojového učení doporučuje Databricks používat cluster se spuštěným Modulem Databricks Runtime pro Machine Learning. Viz Vytvoření clusteru pomocí Databricks Runtime ML.

Pokud chcete začít s hloubkovým učením v Databricks, přečtěte si:

Další kroky

Pokud chcete začít, přečtěte si:

Kurzy: Začínáme s AI a strojovým učením

Doporučený pracovní postup MLOps ve službě Databricks Mosaic AI najdete tady:

Pracovní postupy MLOps v Azure Databricks

Informace o klíčových funkcích Databricks Mosaic AI najdete tady:

Sdílet prostřednictvím