Začínáme s Azure Databricks
Azure Databricks je cloudová distribuovaná platforma pro zpracování a analýzu dat v datovém jezeře. Databricks je založená na Apache Sparku a souvisejících opensourcových technologiích a je navržená ke sjednocení datových věd, přípravy dat a analýzy obchodních dat v snadno použitelném prostředí, které uživatelům umožňuje efektivněji pracovat s daty a méně času zaměřeným na správu clusterů a infrastruktury. Jak se platforma vyvíjí, udržuje aktuální informace o nejnovějších pokrokech v modulu runtime Spark a dalších technologiích a přidala funkce použitelnosti pro podporu běžných datových úloh v jediném centrálně spravovaném rozhraní.
Azure Databricks je hostovaná na cloudové platformě Microsoft Azure a je integrovaná se službami Azure, jako je Microsoft Entra ID, Azure Storage, Azure Synapse Analytics a azure machine Učení. Organizace můžou využít své stávající funkce s platformou Databricks a vytvářet plně integrovaná řešení pro analýzu dat, která pracují s cloudovou infrastrukturou používanou jinými podnikovými aplikacemi.
Vytvoření pracovního prostoru Azure Databricks
Pokud chcete používat Azure Databricks, musíte ve svém předplatném Azure vytvořit pracovní prostor Azure Databricks. Můžete toho dosáhnout takto:
- Pomocí uživatelského rozhraní webu Azure Portal.
- Použití šablony Azure Resource Manageru (ARM) nebo Bicep
- Použití rutiny Azure PowerShellu
New-AzDatabricksWorkspace
- Pomocí příkazu rozhraní příkazového
az databricks workspace create
řádku Azure (CLI)
Při vytváření pracovního prostoru musíte zadat jednu z následujících cenových úrovní:
- Standard – Základní funkce Apache Sparku s integrací Microsoft Entra
- Premium – Řízení přístupu na základě role a další funkce na podnikové úrovni
- Zkušební verze – 14denní bezplatná zkušební verze pracovního prostoru na úrovni Premium
Použití portálu Azure Databricks
Po zřízení pracovního prostoru Azure Databricks můžete pomocí portálu Azure Databricks pracovat s daty a výpočetními prostředky. Portál Azure Databricks je webové uživatelské rozhraní, pomocí kterého můžete vytvářet a spravovat prostředky pracovního prostoru (například clustery Spark) a používat poznámkové bloky a dotazy k práci s daty v souborech a tabulkách.