Puzzle AI Model Training for foundation models
Důležité
Tato funkce je ve verzi Public Preview v následujících oblastech: centralus
, eastus
, eastus2
, northcentralus
a westus
.
S využitím trénování modelu AI (dříve Foundation Model Training) můžete pomocí vlastních dat přizpůsobit základní model tak, aby optimalizoval jeho výkon pro vaši konkrétní aplikaci. Provedením úplného vyladění nebo pokračováním trénování základního modelu můžete vlastní model trénovat pomocí výrazně menšího množství dat, času a výpočetních prostředků než trénování modelu od začátku.
S Databricks máte všechno v jedné platformě: vaše vlastní data, která můžete použít pro trénování, základní model pro trénování, kontrolní body uložené v MLflow a model zaregistrovaný v katalogu Unity a připravený k nasazení.
Podívejte se na kurz: Vytvoření a nasazení běhu pro trénování modelu SI v systému Mosaic AI, kde se dozvíte, jak vytvořit spuštění pomocí rozhraní API pro trénování modelů SY AI a pak zkontrolovat výsledky a nasadit model pomocí uživatelského rozhraní Databricks a obsluhy modelu AI.
Co je trénování modelu AI v systému Mosaic?
K ladění nebo dalšímu trénování základního modelu můžete použít rozhraní API nebo uživatelské rozhraní Databricks.
Pomocí trénování modelu Puzzle AI můžete:
- Trénování modelu s vlastními daty s kontrolními body uloženými v MLflow Zachováte úplnou kontrolu nad natrénovaným modelem.
- Automaticky zaregistrujte model do katalogu Unity, což umožňuje snadné nasazení pomocí obsluhy modelů.
- Další trénování dokončeného, proprietárního modelu načtením hmotností dříve natrénovaného modelu.
Databricks doporučuje vyzkoušet trénování modelu Puzzle AI, pokud:
- Vyzkoušeli jste několik snímků učení a chcete lepší výsledky.
- Vyzkoušeli jste výzvu k vytvoření existujícího modelu a chcete lepší výsledky.
- Chcete mít úplné vlastnictví vlastního modelu pro ochranu osobních údajů.
- Citlivá na latenci nebo náklady a chcete použít menší a levnější model s daty specifickými pro konkrétní úlohy.
Podporované úlohy
Rozhraní AI Model Training v systému Mosaic podporuje následující případy použití:
- Dokončení chatu: Doporučený úkol. Vytrénujte model na protokolech chatu mezi uživatelem a asistentem AI. Tento formát lze použít jak pro skutečné protokoly chatu, tak jako standardní formát pro odpovědi na otázky a konverzační text. Text se automaticky naformátuje do příslušného formátu pro konkrétní model. Další informace o šablonách šablon najdete v ukázkových šablonách chatu v dokumentaci huggingFace.
- Vyladění pod dohledem: Trénování modelu na strukturovaných datech odezvy výzvy Pomocí tohoto postupu můžete model přizpůsobit novému úkolu, změnit jeho styl odpovědi nebo přidat možnosti pro následující instrukce. Tato úloha automaticky nepoužije žádné formátování dat a doporučuje se pouze v případě, že je požadováno vlastní formátování dat.
- Pokračování předběžného trénování: Trénování modelu s dalšími textovými daty Tento postup slouží k přidání nových znalostí do modelu nebo zaměření modelu na konkrétní doménu.
Požadavky
- Pracovní prostor Databricks v jedné z následujících oblastí Azure:
centralus
,eastus
,eastus2
,northcentralus
, nebowestus
. - Rozhraní API pro trénování modelu AI
pip install databricks_genai
s využitím . - Databricks Runtime 12.2 LTS ML nebo vyšší, pokud jsou vaše data v tabulce Delta.
Informace o požadovaných formátech vstupních dat najdete v tématu Příprava dat pro Trénování modelu systému Mosaic AI.
Doporučená velikost dat pro trénování modelu
Databricks doporučuje počáteční trénování pomocí jednoho až čtyř epoch. Pokud chcete, aby výstupy modelu byly podobné trénovacím datům, můžete začít pokračovat v trénování pomocí jednoho až dvou epoch.
Pokud se výkon modelu výrazně sníží u úloh, které nejsou reprezentované ve vašich jemně vyladěných datech, nebo pokud se zdá, že model zobrazuje výstup přesných kopií dat jemného ladění, doporučuje Databricks snížit počet epoch trénování.
Pro vyladění pod dohledem a dokončení chatu byste měli poskytnout dostatek tokenů pro alespoň jednu úplnou délku kontextu modelu. Například 4096 tokenů pro meta-llama/Llama-2-7b-chat-hf
nebo 32768 tokenů pro mistralai/Mistral-7B-v0.1
.
Pro pokračování předběžného trénování doporučuje Databricks minimálně 1,5 milionu tokenů, aby získal model vyšší kvality, který se učí vaše vlastní data.
Podporované modely
Následující tabulka uvádí podporované modely. U nejnovějších podporovaných modelů a jejich přidružených kontextových délek použijte get_models()
funkci.
from databricks.model_training import foundation_model
foundation_model.get_models()
Důležité
Meta Llama 3.2 je licencovaný v rámci licence LLAMA 3.2 Community License, Copyright © Meta Platforms, Inc. Všechna práva vyhrazena. Zákazníci zodpovídají za zajištění souladu s podmínkami této licence a zásadami přijatelného použití Llama 3.2.
Meta Llama 3.1 je licencovaný pod licencí LLAMA 3.1 Community License, Copyright © Meta Platforms, Inc. Všechna práva vyhrazena. Zákazníci zodpovídají za zajištění dodržování předpisů s příslušnými licencemi modelu.
Llama 3 je licencovaný pod licencí LLAMA 3 Community License, Copyright © Meta Platforms, Inc. Všechna práva vyhrazena. Zákazníci zodpovídají za zajištění dodržování předpisů s příslušnými licencemi modelu.
Modely Llama 2 a Code Llama jsou licencované v rámci licence LLAMA 2 Community License, Copyright © Meta Platforms, Inc. Všechna práva vyhrazena. Zákazníci zodpovídají za zajištění dodržování předpisů s příslušnými licencemi modelu.
DBRX je poskytován v rámci a podléhá licenci Databricks Open Model, Copyright © Databricks, Inc. Všechna práva vyhrazena. Zákazníci zodpovídají za zajištění dodržování příslušných licencí modelu, včetně zásad přijatelného použití Databricks.
Model | Maximální délka kontextu | Notes |
---|---|---|
databricks/dbrx-base |
32768 | |
databricks/dbrx-instruct |
32768 | |
meta-llama/Llama-3.2-1B |
131072 | |
meta-llama/Llama-3.2-1B-Instruct |
131072 | |
meta-llama/Llama-3.2-3B |
131072 | |
meta-llama/Llama-3.2-3B-Instruct |
131072 | |
meta-llama/Meta-Llama-3.1-405B |
131072 | |
meta-llama/Meta-Llama-3.1-405B-Instruct |
131072 | |
meta-llama/Meta-Llama-3.1-70B |
131072 | |
meta-llama/Meta-Llama-3.1-70B-Instruct |
131072 | |
meta-llama/Meta-Llama-3.1-8B |
131072 | |
meta-llama/Meta-Llama-3.1-8B-Instruct |
131072 | |
meta-llama/Meta-Llama-3-70B |
8192 | Po 13. prosinci 2024 už tento model nebude podporován. Doporučené nahrazení najdete v části Vyřazené modely . |
meta-llama/Meta-Llama-3-70B-Instruct |
8192 | Po 13. prosinci 2024 už tento model nebude podporován. Doporučené nahrazení najdete v části Vyřazené modely . |
meta-llama/Meta-Llama-3-8B |
8192 | Po 13. prosinci 2024 už tento model nebude podporován. Doporučené nahrazení najdete v části Vyřazené modely . |
meta-llama/Meta-Llama-3-8B-Instruct |
8192 | Po 13. prosinci 2024 už tento model nebude podporován. Doporučené nahrazení najdete v části Vyřazené modely . |
meta-llama/Llama-2-7b-hf |
4096 | Po 13. prosinci 2024 už tento model nebude podporován. Doporučené nahrazení najdete v části Vyřazené modely . |
meta-llama/Llama-2-13b-hf |
4096 | Po 13. prosinci 2024 už tento model nebude podporován. Doporučené nahrazení najdete v části Vyřazené modely . |
meta-llama/Llama-2-70b-hf |
4096 | Po 13. prosinci 2024 už tento model nebude podporován. Doporučené nahrazení najdete v části Vyřazené modely . |
meta-llama/Llama-2-7b-chat-hf |
4096 | Po 13. prosinci 2024 už tento model nebude podporován. Doporučené nahrazení najdete v části Vyřazené modely . |
meta-llama/Llama-2-13b-chat-hf |
4096 | Po 13. prosinci 2024 už tento model nebude podporován. Doporučené nahrazení najdete v části Vyřazené modely . |
meta-llama/Llama-2-70b-chat-hf |
4096 | Po 13. prosinci 2024 už tento model nebude podporován. Doporučené nahrazení najdete v části Vyřazené modely . |
codellama/CodeLlama-7b-hf |
16384 | Po 13. prosinci 2024 už tento model nebude podporován. Doporučené nahrazení najdete v části Vyřazené modely . |
codellama/CodeLlama-13b-hf |
16384 | Po 13. prosinci 2024 už tento model nebude podporován. Doporučené nahrazení najdete v části Vyřazené modely . |
codellama/CodeLlama-34b-hf |
16384 | Po 13. prosinci 2024 už tento model nebude podporován. Doporučené nahrazení najdete v části Vyřazené modely . |
codellama/CodeLlama-7b-Instruct-hf |
16384 | Po 13. prosinci 2024 už tento model nebude podporován. Doporučené nahrazení najdete v části Vyřazené modely . |
codellama/CodeLlama-13b-Instruct-hf |
16384 | Po 13. prosinci 2024 už tento model nebude podporován. Doporučené nahrazení najdete v části Vyřazené modely . |
codellama/CodeLlama-34b-Instruct-hf |
16384 | Po 13. prosinci 2024 už tento model nebude podporován. Doporučené nahrazení najdete v části Vyřazené modely . |
codellama/CodeLlama-7b-Python-hf |
16384 | Po 13. prosinci 2024 už tento model nebude podporován. Doporučené nahrazení najdete v části Vyřazené modely . |
codellama/CodeLlama-13b-Python-hf |
16384 | Po 13. prosinci 2024 už tento model nebude podporován. Doporučené nahrazení najdete v části Vyřazené modely . |
codellama/CodeLlama-34b-Python-hf |
16384 | Po 13. prosinci 2024 už tento model nebude podporován. Doporučené nahrazení najdete v části Vyřazené modely . |
mistralai/Mistral-7B-v0.1 |
32768 | |
mistralai/Mistral-7B-Instruct-v0.2 |
32768 | |
mistralai/Mixtral-8x7B-v0.1 |
32768 |
Použití trénování modelu Puzzle AI
Pomocí sady SDK je přístupná databricks_genai
k trénování modelu AI. Následující příklad vytvoří a spustí trénovací běh, který používá data ze svazků katalogu Unity. Podrobnosti o konfiguraci najdete v tématu Vytvoření trénovacího spuštění pomocí rozhraní API pro trénování modelu SI v systému Mosaic.
from databricks.model_training import foundation_model as fm
model = 'meta-llama/Meta-Llama-3.1-8B-Instruct'
# UC Volume with JSONL formatted data
train_data_path = 'dbfs:/Volumes/main/mydirectory/ift/train.jsonl'
register_to = 'main.mydirectory'
run = fm.create(
model=model,
train_data_path=train_data_path,
register_to=register_to,
)
Podívejte se na podrobné ladění instrukcí: Pojmenovaný poznámkový blok ukázky rozpoznávání entit pro příklad podrobného ladění instrukcí, který vás provede přípravou dat, vyladěním konfigurace a nasazením trénovacího spuštění.
Omezení
Velké datové sady (10B+ tokeny) nejsou podporované kvůli dostupnosti výpočetních prostředků.
V případě průběžného předběžného trénování jsou úlohy omezené na 60 až 256 MB souborů. Soubory větší než 1 GB můžou způsobit delší dobu zpracování.
Databricks se snaží zpřístupnit nejnovější nejmodernější modely pro přizpůsobení s využitím trénování modelu SA.AI. Jakmile budou k dispozici nové modely, může být možnost přístupu ke starším modelům z rozhraní API nebo uživatelského rozhraní odebrána, starší modely můžou být zastaralé nebo podporované modely aktualizovány. Viz Zásady údržby modelů generování AI.
Trénování modelu AI v systému Mosaic podporuje pouze trénování modelů pro pracovní prostory Azure s využitím úložiště za Private Linkem.
- V současné době se podporují pouze čtení dat z úložiště za službou Private Link
eastus2
.
- V současné době se podporují pouze čtení dat z úložiště za službou Private Link
Pokud máte v účtu Azure Data Lake Storage povolené brány firewall, které ukládají vaše data v katalogu Unity, musíte povolit provoz z clusterů bezserverové roviny dat Databricks, abyste mohli použít trénování modelu Puzzle AI. Spojte se s týmem účtů Databricks, kde najdete další informace a možná vlastní řešení.