Mi az az Azure Databricks?

Cikk
03/01/2024

Az Azure Databricks egy egységes, nyílt elemzési platform nagyvállalati szintű adatok, elemzések és AI-megoldások nagy méretekben történő létrehozásához, üzembe helyezéséhez, megosztásához és karbantartásához. A Databricks Adatintelligencia-platform integrálható a felhőbeli tárhellyel és a felhőbeli biztonsággal, és az Ön nevében felügyeli és telepíti a felhőinfrastruktúrát.

Hogyan működik az adatintelligencia-platform?

Az Azure Databricks generatív AI-t használ a data lakehouse használatával az adatok egyedi szemantikájának megértéséhez. Ezután automatikusan optimalizálja a teljesítményt, és az üzleti igényeknek megfelelően kezeli az infrastruktúrát.

A természetes nyelvi feldolgozás elsajátítja a vállalkozás nyelvét, így az adatok kereséséhez és felderítéséhez kérdéseket tehet fel saját szavaival. A természetes nyelvi segítség segít a kódírásban, a hibák elhárításában és a dokumentációban található válaszok megtalálásában.

Végül az adatok és az AI-alkalmazások erős irányításra és biztonságra támaszkodhatnak. Az API-kat, például az OpenAI-t anélkül integrálhatja, hogy veszélyeztetné az adatvédelmet és az IP-vezérlést.

Mire használható az Azure Databricks?

Az Azure Databricks olyan eszközöket biztosít, amelyekkel az adatforrásokat egyetlen platformhoz csatlakoztathatja az adathalmazok feldolgozásához, tárolásához, megosztásához, elemzéséhez, modellezéséhez és bevételszerzéséhez a BI és a generatív AI megoldásaival.

Az Azure Databricks-munkaterület egységes felületet és eszközöket biztosít a legtöbb adatfeladathoz, beleértve a következőket:

Adatfeldolgozás ütemezése és kezelése, különösen az ETL
Irányítópultok és vizualizációk létrehozása
Biztonság, irányítás, magas rendelkezésre állás és vészhelyreállítás kezelése
Adatfelderítés, széljegyzet és feltárás
Gépi tanulás (ML) modellezése, nyomon követése és modellezése
Generatív AI-megoldások

Felügyelt integráció nyílt forráskód

A Databricks elkötelezett a nyílt forráskód közösség iránt. A Databricks kezeli nyílt forráskód integráció frissítéseit a Databricks Runtime-kiadásokban. Az alábbi technológiák nyílt forráskód a Databricks alkalmazottai által eredetileg létrehozott projektek:

Eszközök és programozott hozzáférés

Az Azure Databricks számos olyan saját fejlesztésű eszközt tart fenn, amelyek integrálják és bővítik ezeket a technológiákat az optimalizált teljesítmény és a könnyű használat érdekében, például a következőket:

A munkaterület felhasználói felülete mellett az Azure Databricks programozott módon is használható a következő eszközökkel:

REST API
parancssori felület
Terraform

Hogyan működik az Azure Databricks az Azure-ral?

Az Azure Databricks platformarchitektúra két elsődleges részből áll:

Az Azure Databricks által a platform és szolgáltatások üzembe helyezéséhez, konfigurálásához és kezeléséhez használt infrastruktúra.
Az Azure Databricks és az Ön vállalata által együttműködésben felügyelt, ügyfél által birtokolt infrastruktúra.

Sok nagyvállalattól eltérően az Azure Databricks nem kényszeríti az adatok védett tárolórendszerekbe való migrálására a platform használatához. Ehelyett az Azure Databricks-munkaterületet úgy konfigurálja, hogy biztonságos integrációt konfigurál az Azure Databricks platform és a felhőfiók között, majd az Azure Databricks üzembe helyezi a számítási fürtöket a fiókjában lévő felhőerőforrások használatával az adatok objektumtárolóban és más, Ön által felügyelt integrált szolgáltatásokban való feldolgozásához és tárolásához.

A Unity Catalog tovább bővíti ezt a kapcsolatot, így az Azure Databricks ismerős SQL-szintaxisával kezelheti az adatokhoz való hozzáféréshez szükséges engedélyeket.

Az Azure Databricks-munkaterületek megfelelnek a világ legnagyobb és legbiztonságosabb vállalatainak biztonsági és hálózatkezelési követelményeinek. Az Azure Databricks megkönnyíti az új felhasználók számára a platform használatának megkezdését. Eltávolítja a felhőinfrastruktúra használatának számos terhét és aggályát anélkül, hogy korlátozná a tapasztalt adatok, műveletek és biztonsági csapatok által igényelt testreszabásokat és vezérlést.

Mik az Azure Databricks gyakori használati esetei?

Az Azure Databricks használati esetei olyan változatosak, mint a platformon feldolgozott adatok, és az alkalmazottak számos olyan személye, akik az adatokkal dolgoznak a munkájuk alapvető részeként. Az alábbi használati esetek kiemelik, hogy a szervezet felhasználói hogyan használhatják az Azure Databrickset a kritikus üzleti funkciókat és döntéseket meghatározó adatok feldolgozásához, tárolásához és elemzéséhez szükséges feladatok elvégzéséhez.

Vállalati data lakehouse létrehozása

A data lakehouse egyesíti a vállalati adattárházak és adattavak erősségeit a vállalati adatmegoldások felgyorsítása, egyszerűsítése és egységesítése érdekében. Az adatmérnökök, adattudósok, elemzők és éles rendszerek egyaránt használhatják a data lakehouse-t egyetlen igazságforrásként, így időben hozzáférhetnek a konzisztens adatokhoz, és csökkenthetik számos elosztott adatrendszer kiépítésének, karbantartásának és szinkronizálásának összetettségét. Lásd : Mi az a data lakehouse?.

ETL és adatelemzés

Akár irányítópultokat hoz létre, akár mesterségesintelligencia-alkalmazásokat hoz létre, az adatfejlesztés biztosítja az adatközpontú vállalatok gerincét azáltal, hogy biztosítja az adatok rendelkezésre állását, tisztítását és tárolását olyan adatmodellekben, amelyek lehetővé teszik a hatékony felderítést és használatot. Az Azure Databricks ötvözi az Apache Spark és a Delta Lake erejét, valamint az egyéni eszközöket, hogy páratlan ETL-élményt (kinyerést, átalakítást, betöltést) biztosítson. Az SQL, a Python és a Scala használatával ETL-logikát írhat, majd néhány kattintással vezényelheti az ütemezett feladatok üzembe helyezését.

A Delta Live Tables még tovább egyszerűsíti az ETL-t azáltal, hogy intelligensen kezeli az adathalmazok közötti függőségeket, és automatikusan telepíti és méretezi az éles infrastruktúrát, hogy a specifikációk szerint időben és pontosan kézbesítse az adatokat.

Az Azure Databricks számos egyéni eszközt biztosít az adatbetöltéshez, beleértve az Automatikus betöltőt is, amely hatékony és méretezhető eszköz a felhőbeli objektumok tárolóiból és adattóiból származó adatok növekményes és idempotens betöltéséhez a data lakehouse-ba.

Gépi tanulás, AI és adatelemzés

Az Azure Databricks machine learning kibővíti a platform alapvető funkcióit az adattudósok és az ML-mérnökök igényeire szabott eszközökkel, beleértve az MLflow-t és a Databricks Runtime for Machine Tanulás.

Nagy nyelvi modellek és generatív AI

A Databricks Runtime for Machine Tanulás olyan kódtárakat tartalmaz, mint a Face Transformers ölelése, amelyek lehetővé teszik a meglévő előre betanított modellek vagy más nyílt forráskódú kódtárak integrálását a munkafolyamatba. A Databricks MLflow integrációja megkönnyíti az MLflow nyomkövetési szolgáltatás használatát transzformátorfolyamatokkal, modellekkel és feldolgozási összetevőkkel. Emellett a Databricks-munkafolyamatokban integrálhatja az OpenAI-modelleket vagy -megoldásokat olyan partnerektől, mint a John Snow Labs .

Az Azure Databricks segítségével testre szabhat egy LLM-et az adatain az adott feladathoz. A nyílt forráskód eszközkészlet( például a Face és a DeepSpeed ölelése) támogatásával hatékonyan végezhet alapszintű LLM-et, és saját adatokkal kezdheti el a betanítást, hogy pontosabb legyen a tartománya és a számítási feladatai számára.

Az Azure Databricks emellett olyan AI-függvényeket is biztosít, amelyekkel az SQL-adatelemzők közvetlenül az adatfolyamaikon és munkafolyamataikon belül hozzáférhetnek az LLM-modellekhez, például az OpenAI-ból. Lásd: AI Functions az Azure Databricksben.

Adattárház, elemzés és BI

Az Azure Databricks a felhasználóbarát felhasználói felületeket költséghatékony számítási erőforrásokkal és végtelenül méretezhető, megfizethető tárterülettel kombinálja, így hatékony platformot biztosít az elemzési lekérdezések futtatásához. Rendszergazda istratorok méretezhető számítási fürtöket konfigurálnak SQL-raktárak, amelyek lehetővé teszik a végfelhasználók számára a lekérdezések végrehajtását anélkül, hogy a felhőben végzett munka bonyolultságával kellene foglalkozniuk. Az SQL-felhasználók lekérdezéseket futtathatnak a lakehouse-beli adatokon az SQL-lekérdezésszerkesztő vagy a jegyzetfüzetek használatával. A jegyzetfüzetek az SQL mellett támogatják a Pythont, az R-t és a Scalát, és lehetővé teszik a felhasználók számára, hogy a markdownban írt hivatkozások, képek és kommentárok mellett az irányítópultokon elérhető vizualizációkat beágyazhassanak.

A Unity Catalog egységes adatszabályozási modellt biztosít a data lakehouse-hoz. A felhőgazdák durva hozzáférés-vezérlési engedélyeket konfigurálnak és integrálnak a Unity Cataloghoz, majd az Azure Databricks rendszergazdái kezelhetik a csapatok és az egyének engedélyeit. A jogosultságok hozzáférés-vezérlési listákkal (ACL-ekkel) kezelhetők felhasználóbarát felhasználói felületeken vagy SQL-szintaxison keresztül, így az adatbázisgazdák egyszerűbben férhetnek hozzá az adatokhoz anélkül, hogy skálázniuk kellene a natív felhőbeli identitáshozzáférés-kezelést (IAM) és a hálózatkezelést.

A Unity Catalog egyszerűvé teszi a biztonságos elemzések futtatását a felhőben, és olyan felelősségi felosztást biztosít, amely segít korlátozni a platform rendszergazdái és végfelhasználói számára szükséges újraképezést vagy továbbképzést. Lásd : Mi az a Unity Katalógus?.

A lakehouse olyan egyszerűvé teszi a szervezeten belüli adatmegosztást, mintha lekérdezési hozzáférést biztosít egy táblához vagy nézethez. A biztonságos környezeten kívüli megosztáshoz a Unity Catalog a Delta Sharing egy felügyelt verzióját tartalmazza.

DevOps, CI/CD és feladat-vezénylés

Az ETL-folyamatok, az ML-modellek és az elemzési irányítópultok fejlesztési életciklusai mindegyike saját egyedi kihívásokat jelent. Az Azure Databricks lehetővé teszi, hogy minden felhasználó egyetlen adatforrást használjon, ami csökkenti az ismétlődő erőfeszítéseket és a szinkronizáláson kívüli jelentéseket. A verziószámozáshoz, automatizáláshoz, ütemezéshez, kód- és éles erőforrások üzembe helyezéséhez szükséges gyakori eszközök csomagjának biztosításával egyszerűbbé teheti a figyeléssel, vezényléssel és üzemeltetéssel kapcsolatos többletterhelést. A munkafolyamatok Azure Databricks-jegyzetfüzeteket, SQL-lekérdezéseket és más tetszőleges kódot ütemeznek. Az adattárak lehetővé teszik az Azure Databricks-projektek szinkronizálását számos népszerű git-szolgáltatóval. Az eszközök teljes áttekintéséhez tekintse meg Fejlesztői eszközök és útmutatást.

Valós idejű és streamelt elemzés

Az Azure Databricks az Apache Spark strukturált streamelést használja a streamelési adatok és a növekményes adatváltozások kezeléséhez. A strukturált stream szorosan integrálható a Delta Lake-zel, és ezek a technológiák biztosítják mind a Delta Live Tables, mind az Auto Loader alapjait. Lásd : Streamelés az Azure Databricksben.