Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Apache Spark je jádrem platformy Azure Databricks Data Intelligence Platform a je technologie, která využívá výpočetní clustery a sklady SQL. Azure Databricks je optimalizovaná platforma pro Apache Spark, která poskytuje efektivní a jednoduchou platformu pro spouštění úloh Apache Sparku.
Jaký je vztah Apache Sparku k Azure Databricks?
Společnost Databricks byla založena původními tvůrci Apache Sparku. Jako open-source softwarový projekt Apache Spark zahrnuje přispěvatele z mnoha špičkových společností, včetně Databricks.
Databricks nadále vyvíjí a vydává funkce pro Apache Spark. Databricks Runtime, který využívá Azure Databricks, zahrnuje další optimalizace a proprietární funkce, které jsou postavené na Apache Sparku, včetně Photonu, optimalizované prováděcí vrstvy, kterou je možné použít ve spojení se Sparkem. Databricks Photon je navržená tak, aby fungovala a zlepšila výkon úloh Apache Sparku. Photon vylepšuje výkon Sparku vektorizací dotazů a dalších operací, což umožňuje rychlejší spouštění operací rozhraní SQL a DataFrame API.
Jak je Databricks optimalizovaný pro Apache Spark?
V Apache Sparku se všechny operace definují jako transformace nebo akce.
- Transformace: Přidejte do plánu logiku zpracování. Mezi příklady patří čtení dat, spojení, agregace a přetypování.
- Akce: Aktivace logiky zpracování pro vyhodnocení a výstup výsledku Mezi příklady patří zápisy, zobrazení nebo zobrazení náhledu výsledků, ruční ukládání do mezipaměti nebo získání počtu řádků.
Apache Spark používá opožděný model spouštění , což znamená, že žádná logika definovaná kolekcí operací se nevyhodnocuje, dokud se neaktivuje akce. Abyste se vyhnuli zbytečnému vyhodnocení logiky, použijte pouze akce k uložení výsledků zpět do cílové tabulky.
Vzhledem k tomu, že akce představují úzké místo při zpracování pro optimalizaci logiky, služba Azure Databricks přidala četné optimalizace nad rámec těch, které už existují v Apache Spark, aby zajistila optimální spuštění logiky. Tyto optimalizace berou v úvahu všechny transformace aktivované danou akcí najednou a najdou optimální plán na základě fyzického rozložení dat. Ruční ukládání dat do mezipaměti nebo vrácení výsledků náhledu v produkčních kanálech může tyto optimalizace přerušit a vést ke zvýšení nákladů a latence.
Jak Apache Spark funguje v Azure Databricks?
Když nasadíte výpočetní cluster nebo SQL Warehouse v Azure Databricks, apache Spark se nakonfiguruje a nasadí do virtuálních počítačů. Nemusíte konfigurovat ani inicializovat kontext Sparku nebo relaci Sparku, protože jsou spravované pro vás službou Azure Databricks.
Můžu používat Azure Databricks bez použití Apache Sparku?
Ano. Azure Databricks podporuje celou řadu úloh a zahrnuje opensourcové knihovny v Databricks Runtime. Databricks SQL používá Photon pod kapotou, ale koncoví uživatelé můžou pomocí syntaxe Spark SQL vytvářet a dotazovat databázové objekty pomocí Photon.
Databricks Runtime pro Machine Learning je optimalizovaný pro úlohy ML a mnoho datových vědců používá při práci na Azure Databricks primární opensourcové knihovny, jako jsou TensorFlow a SciKit Learn. Úlohy můžete použít k naplánování libovolných úloh na výpočetní prostředky nasazené a spravované službou Azure Databricks.
Proč používat Apache Spark v Azure Databricks?
Platforma Databricks poskytuje zabezpečené prostředí pro spolupráci pro vývoj a nasazování podnikových řešení, která se škálují s vaší firmou. Zaměstnanci Databricks patří k nejzkušenějším správcům a uživatelům Apache Sparku na světě. Společnost neustále vyvíjí a vydává nové optimalizace, aby uživatelé měli přístup k nejrychlejšímu prostředí pro spouštění Apache Sparku.
Jak zjistím další informace o používání Apache Sparku v Azure Databricks?
Pokud chcete začít s Apache Sparkem v Azure Databricks, pusťte se přímo do práce. Kurz datových rámců Apache Sparku vás provede načítáním a transformací dat v Pythonu, R nebo Scala. Viz kurz: Načtení a transformace dat pomocí datových rámců Apache Spark. Další příručky a odkazy na další informace najdete v Apache Sparku v Azure Databricks.
Další informace o podpoře jazyků Python, R a Scala ve Sparku najdete v tématu PySpark v Azure Databricks, sparklyr a Azure Databricks pro vývojáře v jazyce Scala a také v referenčních informacích k rozhraním Apache Spark API.