Mi az az Azure Databricks?

Az Azure Databricks egy egységes, nyílt elemzési platform nagyvállalati szintű adatok, elemzések és AI-megoldások nagy méretekben történő létrehozásához, üzembe helyezéséhez, megosztásához és karbantartásához. A Databricks Adatintelligencia-platform integrálható a felhőbeli tárhellyel és a felhőbeli biztonsággal, és az Ön nevében felügyeli és telepíti a felhőinfrastruktúrát.

Hogyan működik az adatintelligencia-platform?

Az Azure Databricks generatív AI-t használ a data lakehouse használatával az adatok egyedi szemantikájának megértéséhez. Ezután automatikusan optimalizálja a teljesítményt, és az üzleti igényeknek megfelelően kezeli az infrastruktúrát.

A természetes nyelvi feldolgozás elsajátítja a vállalkozás nyelvét, így az adatok kereséséhez és felderítéséhez kérdéseket tehet fel saját szavaival. A természetes nyelvi segítség segít a kódírásban, a hibák elhárításában és a dokumentációban található válaszok megtalálásában.

Végül az adatok és az AI-alkalmazások erős irányításra és biztonságra támaszkodhatnak. Az API-kat, például az OpenAI-t anélkül integrálhatja, hogy veszélyeztetné az adatvédelmet és az IP-vezérlést.

Mire használható az Azure Databricks?

Az Azure Databricks olyan eszközöket biztosít, amelyekkel az adatforrásokat egyetlen platformhoz csatlakoztathatja az adathalmazok feldolgozásához, tárolásához, megosztásához, elemzéséhez, modellezéséhez és bevételszerzéséhez a BI és a generatív AI megoldásaival.

Az Azure Databricks-munkaterület egységes felületet és eszközöket biztosít a legtöbb adatfeladathoz, beleértve a következőket:

  • Adatfeldolgozás ütemezése és kezelése, különösen az ETL
  • Irányítópultok és vizualizációk létrehozása
  • Biztonság, irányítás, magas rendelkezésre állás és vészhelyreállítás kezelése
  • Adatfelderítés, széljegyzet és feltárás
  • Gépi tanulás (ML) modellezése, nyomon követése és modellezése
  • Generatív AI-megoldások

Felügyelt integráció nyílt forráskód

A Databricks elkötelezett a nyílt forráskód közösség iránt. A Databricks kezeli nyílt forráskód integráció frissítéseit a Databricks Runtime-kiadásokban. Az alábbi technológiák nyílt forráskód a Databricks alkalmazottai által eredetileg létrehozott projektek:

Eszközök és programozott hozzáférés

Az Azure Databricks számos olyan saját fejlesztésű eszközt tart fenn, amelyek integrálják és bővítik ezeket a technológiákat az optimalizált teljesítmény és a könnyű használat érdekében, például a következőket:

A munkaterület felhasználói felülete mellett az Azure Databricks programozott módon is használható a következő eszközökkel:

  • REST API
  • parancssori felület
  • Terraform

Hogyan működik az Azure Databricks az Azure-ral?

Az Azure Databricks platformarchitektúra két elsődleges részből áll:

  • Az Azure Databricks által a platform és szolgáltatások üzembe helyezéséhez, konfigurálásához és kezeléséhez használt infrastruktúra.
  • Az Azure Databricks és az Ön vállalata által együttműködésben felügyelt, ügyfél által birtokolt infrastruktúra.

Sok nagyvállalattól eltérően az Azure Databricks nem kényszeríti az adatok védett tárolórendszerekbe való migrálására a platform használatához. Ehelyett az Azure Databricks-munkaterületet úgy konfigurálja, hogy biztonságos integrációt konfigurál az Azure Databricks platform és a felhőfiók között, majd az Azure Databricks üzembe helyezi a számítási fürtöket a fiókjában lévő felhőerőforrások használatával az adatok objektumtárolóban és más, Ön által felügyelt integrált szolgáltatásokban való feldolgozásához és tárolásához.

A Unity Catalog tovább bővíti ezt a kapcsolatot, így az Azure Databricks ismerős SQL-szintaxisával kezelheti az adatokhoz való hozzáféréshez szükséges engedélyeket.

Az Azure Databricks-munkaterületek megfelelnek a világ legnagyobb és legbiztonságosabb vállalatainak biztonsági és hálózatkezelési követelményeinek. Az Azure Databricks megkönnyíti az új felhasználók számára a platform használatának megkezdését. Eltávolítja a felhőinfrastruktúra használatának számos terhét és aggályát anélkül, hogy korlátozná a tapasztalt adatok, műveletek és biztonsági csapatok által igényelt testreszabásokat és vezérlést.

Mik az Azure Databricks gyakori használati esetei?

Az Azure Databricks használati esetei olyan változatosak, mint a platformon feldolgozott adatok, és az alkalmazottak számos olyan személye, akik az adatokkal dolgoznak a munkájuk alapvető részeként. Az alábbi használati esetek kiemelik, hogy a szervezet felhasználói hogyan használhatják az Azure Databrickset a kritikus üzleti funkciókat és döntéseket meghatározó adatok feldolgozásához, tárolásához és elemzéséhez szükséges feladatok elvégzéséhez.

Vállalati data lakehouse létrehozása

A data lakehouse egyesíti a vállalati adattárházak és adattavak erősségeit a vállalati adatmegoldások felgyorsítása, egyszerűsítése és egységesítése érdekében. Az adatmérnökök, adattudósok, elemzők és éles rendszerek egyaránt használhatják a data lakehouse-t egyetlen igazságforrásként, így időben hozzáférhetnek a konzisztens adatokhoz, és csökkenthetik számos elosztott adatrendszer kiépítésének, karbantartásának és szinkronizálásának összetettségét. Lásd : Mi az a data lakehouse?.

ETL és adatelemzés

Akár irányítópultokat hoz létre, akár mesterségesintelligencia-alkalmazásokat hoz létre, az adatfejlesztés biztosítja az adatközpontú vállalatok gerincét azáltal, hogy biztosítja az adatok rendelkezésre állását, tisztítását és tárolását olyan adatmodellekben, amelyek lehetővé teszik a hatékony felderítést és használatot. Az Azure Databricks ötvözi az Apache Spark és a Delta Lake erejét, valamint az egyéni eszközöket, hogy páratlan ETL-élményt (kinyerést, átalakítást, betöltést) biztosítson. Az SQL, a Python és a Scala használatával ETL-logikát írhat, majd néhány kattintással vezényelheti az ütemezett feladatok üzembe helyezését.

A Delta Live Tables még tovább egyszerűsíti az ETL-t azáltal, hogy intelligensen kezeli az adathalmazok közötti függőségeket, és automatikusan telepíti és méretezi az éles infrastruktúrát, hogy a specifikációk szerint időben és pontosan kézbesítse az adatokat.

Az Azure Databricks számos egyéni eszközt biztosít az adatbetöltéshez, beleértve az Automatikus betöltőt is, amely hatékony és méretezhető eszköz a felhőbeli objektumok tárolóiból és adattóiból származó adatok növekményes és idempotens betöltéséhez a data lakehouse-ba.

Gépi tanulás, AI és adatelemzés

Az Azure Databricks machine learning kibővíti a platform alapvető funkcióit az adattudósok és az ML-mérnökök igényeire szabott eszközökkel, beleértve az MLflow-t és a Databricks Runtime for Machine Tanulás.

Nagy nyelvi modellek és generatív AI

A Databricks Runtime for Machine Tanulás olyan kódtárakat tartalmaz, mint a Face Transformers ölelése, amelyek lehetővé teszik a meglévő előre betanított modellek vagy más nyílt forráskódú kódtárak integrálását a munkafolyamatba. A Databricks MLflow integrációja megkönnyíti az MLflow nyomkövetési szolgáltatás használatát transzformátorfolyamatokkal, modellekkel és feldolgozási összetevőkkel. Emellett a Databricks-munkafolyamatokban integrálhatja az OpenAI-modelleket vagy -megoldásokat olyan partnerektől, mint a John Snow Labs .

Az Azure Databricks segítségével testre szabhat egy LLM-et az adatain az adott feladathoz. A nyílt forráskód eszközkészlet( például a Face és a DeepSpeed ölelése) támogatásával hatékonyan végezhet alapszintű LLM-et, és saját adatokkal kezdheti el a betanítást, hogy pontosabb legyen a tartománya és a számítási feladatai számára.

Az Azure Databricks emellett olyan AI-függvényeket is biztosít, amelyekkel az SQL-adatelemzők közvetlenül az adatfolyamaikon és munkafolyamataikon belül hozzáférhetnek az LLM-modellekhez, például az OpenAI-ból. Lásd: AI Functions az Azure Databricksben.

Adattárház, elemzés és BI

Az Azure Databricks a felhasználóbarát felhasználói felületeket költséghatékony számítási erőforrásokkal és végtelenül méretezhető, megfizethető tárterülettel kombinálja, így hatékony platformot biztosít az elemzési lekérdezések futtatásához. Rendszergazda istratorok méretezhető számítási fürtöket konfigurálnak SQL-raktárak, amelyek lehetővé teszik a végfelhasználók számára a lekérdezések végrehajtását anélkül, hogy a felhőben végzett munka bonyolultságával kellene foglalkozniuk. Az SQL-felhasználók lekérdezéseket futtathatnak a lakehouse-beli adatokon az SQL-lekérdezésszerkesztő vagy a jegyzetfüzetek használatával. A jegyzetfüzetek az SQL mellett támogatják a Pythont, az R-t és a Scalát, és lehetővé teszik a felhasználók számára, hogy a markdownban írt hivatkozások, képek és kommentárok mellett az irányítópultokon elérhető vizualizációkat beágyazhassanak.

Adatszabályozás és biztonságos adatmegosztás

A Unity Catalog egységes adatszabályozási modellt biztosít a data lakehouse-hoz. A felhőgazdák durva hozzáférés-vezérlési engedélyeket konfigurálnak és integrálnak a Unity Cataloghoz, majd az Azure Databricks rendszergazdái kezelhetik a csapatok és az egyének engedélyeit. A jogosultságok hozzáférés-vezérlési listákkal (ACL-ekkel) kezelhetők felhasználóbarát felhasználói felületeken vagy SQL-szintaxison keresztül, így az adatbázisgazdák egyszerűbben férhetnek hozzá az adatokhoz anélkül, hogy skálázniuk kellene a natív felhőbeli identitáshozzáférés-kezelést (IAM) és a hálózatkezelést.

A Unity Catalog egyszerűvé teszi a biztonságos elemzések futtatását a felhőben, és olyan felelősségi felosztást biztosít, amely segít korlátozni a platform rendszergazdái és végfelhasználói számára szükséges újraképezést vagy továbbképzést. Lásd : Mi az a Unity Katalógus?.

A lakehouse olyan egyszerűvé teszi a szervezeten belüli adatmegosztást, mintha lekérdezési hozzáférést biztosít egy táblához vagy nézethez. A biztonságos környezeten kívüli megosztáshoz a Unity Catalog a Delta Sharing egy felügyelt verzióját tartalmazza.

DevOps, CI/CD és feladat-vezénylés

Az ETL-folyamatok, az ML-modellek és az elemzési irányítópultok fejlesztési életciklusai mindegyike saját egyedi kihívásokat jelent. Az Azure Databricks lehetővé teszi, hogy minden felhasználó egyetlen adatforrást használjon, ami csökkenti az ismétlődő erőfeszítéseket és a szinkronizáláson kívüli jelentéseket. A verziószámozáshoz, automatizáláshoz, ütemezéshez, kód- és éles erőforrások üzembe helyezéséhez szükséges gyakori eszközök csomagjának biztosításával egyszerűbbé teheti a figyeléssel, vezényléssel és üzemeltetéssel kapcsolatos többletterhelést. A munkafolyamatok Azure Databricks-jegyzetfüzeteket, SQL-lekérdezéseket és más tetszőleges kódot ütemeznek. Az adattárak lehetővé teszik az Azure Databricks-projektek szinkronizálását számos népszerű git-szolgáltatóval. Az eszközök teljes áttekintéséhez tekintse meg Fejlesztői eszközök és útmutatást.

Valós idejű és streamelt elemzés

Az Azure Databricks az Apache Spark strukturált streamelést használja a streamelési adatok és a növekményes adatváltozások kezeléséhez. A strukturált stream szorosan integrálható a Delta Lake-zel, és ezek a technológiák biztosítják mind a Delta Live Tables, mind az Auto Loader alapjait. Lásd : Streamelés az Azure Databricksben.