Mi az az Azure Databricks?
Az Azure Databricks egy egységes, nyílt elemzési platform nagyvállalati szintű adatok, elemzések és AI-megoldások nagy méretekben történő létrehozásához, üzembe helyezéséhez, megosztásához és karbantartásához. A Databricks Adatintelligencia-platform integrálható a felhőbeli tárhellyel és a felhőbeli biztonsággal, és az Ön nevében felügyeli és telepíti a felhőinfrastruktúrát.
Az Azure Databricks generatív AI-t használ a data lakehouse használatával az adatok egyedi szemantikájának megértéséhez. Ezután automatikusan optimalizálja a teljesítményt, és az üzleti igényeknek megfelelően kezeli az infrastruktúrát.
A természetes nyelvi feldolgozás elsajátítja a vállalkozás nyelvét, így az adatok kereséséhez és felderítéséhez kérdéseket tehet fel saját szavaival. A természetes nyelvi segítség segít a kódírásban, a hibák elhárításában és a dokumentációban található válaszok megtalálásában.
Végül az adatok és az AI-alkalmazások erős irányításra és biztonságra támaszkodhatnak. Az API-kat, például az OpenAI-t anélkül integrálhatja, hogy veszélyeztetné az adatvédelmet és az IP-vezérlést.
Az Azure Databricks olyan eszközöket biztosít, amelyekkel az adatforrásokat egyetlen platformhoz csatlakoztathatja az adathalmazok feldolgozásához, tárolásához, megosztásához, elemzéséhez, modellezéséhez és bevételszerzéséhez a BI és a generatív AI megoldásaival.
Az Azure Databricks-munkaterület egységes felületet és eszközöket biztosít a legtöbb adatfeladathoz, beleértve a következőket:
- Adatfeldolgozás ütemezése és kezelése, különösen az ETL
- Irányítópultok és vizualizációk létrehozása
- Biztonság, irányítás, magas rendelkezésre állás és vészhelyreállítás kezelése
- Adatfelderítés, széljegyzet és feltárás
- Gépi tanulás (ML) modellezése, nyomon követése és modellezése
- Generatív AI-megoldások
A Databricks elkötelezett a nyílt forráskód közösség iránt. A Databricks kezeli nyílt forráskód integráció frissítéseit a Databricks Runtime-kiadásokban. Az alábbi technológiák nyílt forráskód a Databricks alkalmazottai által eredetileg létrehozott projektek:
Az Azure Databricks számos olyan saját fejlesztésű eszközt tart fenn, amelyek integrálják és bővítik ezeket a technológiákat az optimalizált teljesítmény és a könnyű használat érdekében, például a következőket:
A munkaterület felhasználói felülete mellett az Azure Databricks programozott módon is használható a következő eszközökkel:
- REST API
- parancssori felület
- Terraform
Az Azure Databricks platformarchitektúra két elsődleges részből áll:
- Az Azure Databricks által a platform és szolgáltatások üzembe helyezéséhez, konfigurálásához és kezeléséhez használt infrastruktúra.
- Az Azure Databricks és az Ön vállalata által együttműködésben felügyelt, ügyfél által birtokolt infrastruktúra.
Sok nagyvállalattól eltérően az Azure Databricks nem kényszeríti az adatok védett tárolórendszerekbe való migrálására a platform használatához. Ehelyett az Azure Databricks-munkaterületet úgy konfigurálja, hogy biztonságos integrációt konfigurál az Azure Databricks platform és a felhőfiók között, majd az Azure Databricks üzembe helyezi a számítási fürtöket a fiókjában lévő felhőerőforrások használatával az adatok objektumtárolóban és más, Ön által felügyelt integrált szolgáltatásokban való feldolgozásához és tárolásához.
A Unity Catalog tovább bővíti ezt a kapcsolatot, így az Azure Databricks ismerős SQL-szintaxisával kezelheti az adatokhoz való hozzáféréshez szükséges engedélyeket.
Az Azure Databricks-munkaterületek megfelelnek a világ legnagyobb és legbiztonságosabb vállalatainak biztonsági és hálózatkezelési követelményeinek. Az Azure Databricks megkönnyíti az új felhasználók számára a platform használatának megkezdését. Eltávolítja a felhőinfrastruktúra használatának számos terhét és aggályát anélkül, hogy korlátozná a tapasztalt adatok, műveletek és biztonsági csapatok által igényelt testreszabásokat és vezérlést.
Az Azure Databricks használati esetei olyan változatosak, mint a platformon feldolgozott adatok, és az alkalmazottak számos olyan személye, akik az adatokkal dolgoznak a munkájuk alapvető részeként. Az alábbi használati esetek kiemelik, hogy a szervezet felhasználói hogyan használhatják az Azure Databrickset a kritikus üzleti funkciókat és döntéseket meghatározó adatok feldolgozásához, tárolásához és elemzéséhez szükséges feladatok elvégzéséhez.
A data lakehouse egyesíti a vállalati adattárházak és adattavak erősségeit a vállalati adatmegoldások felgyorsítása, egyszerűsítése és egységesítése érdekében. Az adatmérnökök, adattudósok, elemzők és éles rendszerek egyaránt használhatják a data lakehouse-t egyetlen igazságforrásként, így időben hozzáférhetnek a konzisztens adatokhoz, és csökkenthetik számos elosztott adatrendszer kiépítésének, karbantartásának és szinkronizálásának összetettségét. Lásd : Mi az a data lakehouse?.
Akár irányítópultokat hoz létre, akár mesterségesintelligencia-alkalmazásokat hoz létre, az adatfejlesztés biztosítja az adatközpontú vállalatok gerincét azáltal, hogy biztosítja az adatok rendelkezésre állását, tisztítását és tárolását olyan adatmodellekben, amelyek lehetővé teszik a hatékony felderítést és használatot. Az Azure Databricks ötvözi az Apache Spark és a Delta Lake erejét, valamint az egyéni eszközöket, hogy páratlan ETL-élményt (kinyerést, átalakítást, betöltést) biztosítson. Az SQL, a Python és a Scala használatával ETL-logikát írhat, majd néhány kattintással vezényelheti az ütemezett feladatok üzembe helyezését.
A Delta Live Tables még tovább egyszerűsíti az ETL-t azáltal, hogy intelligensen kezeli az adathalmazok közötti függőségeket, és automatikusan telepíti és méretezi az éles infrastruktúrát, hogy a specifikációk szerint időben és pontosan kézbesítse az adatokat.
Az Azure Databricks számos egyéni eszközt biztosít az adatbetöltéshez, beleértve az Automatikus betöltőt is, amely hatékony és méretezhető eszköz a felhőbeli objektumok tárolóiból és adattóiból származó adatok növekményes és idempotens betöltéséhez a data lakehouse-ba.
Az Azure Databricks machine learning kibővíti a platform alapvető funkcióit az adattudósok és az ML-mérnökök igényeinek megfelelő eszközökkel, beleértve az MLflow-t és a Databricks Runtime for Machine Learninget.
A Databricks Runtime for Machine Learning olyan kódtárakat tartalmaz, mint a Face Transformers ölelése, amelyek lehetővé teszik a meglévő előre betanított modellek vagy más nyílt forráskódú kódtárak integrálását a munkafolyamatba. A Databricks MLflow integrációja megkönnyíti az MLflow nyomkövetési szolgáltatás használatát transzformátorfolyamatokkal, modellekkel és feldolgozási összetevőkkel. Emellett a Databricks-munkafolyamatokban integrálhatja az OpenAI-modelleket vagy -megoldásokat olyan partnerektől, mint a John Snow Labs .
Az Azure Databricks segítségével testre szabhat egy LLM-et az adatain az adott feladathoz. A nyílt forráskód eszközkészlet( például a Face és a DeepSpeed ölelése) támogatásával hatékonyan végezhet alapszintű LLM-et, és saját adatokkal kezdheti el a betanítást, hogy pontosabb legyen a tartománya és a számítási feladatai számára.
Az Azure Databricks emellett olyan AI-függvényeket is biztosít, amelyekkel az SQL-adatelemzők közvetlenül az adatfolyamaikon és munkafolyamataikon belül hozzáférhetnek az LLM-modellekhez, például az OpenAI-ból. Lásd: AI Functions az Azure Databricksben.
Az Azure Databricks a felhasználóbarát felhasználói felületeket költséghatékony számítási erőforrásokkal és végtelenül méretezhető, megfizethető tárterülettel kombinálja, így hatékony platformot biztosít az elemzési lekérdezések futtatásához. A rendszergazdák SQL-raktárként konfigurálják a méretezhető számítási fürtöket, így a végfelhasználók anélkül hajthatják végre a lekérdezéseket, hogy a felhőben végzett munka bonyolultsága miatt kellene aggódniuk. Az SQL-felhasználók lekérdezéseket futtathatnak a lakehouse-beli adatokon az SQL-lekérdezésszerkesztő vagy a jegyzetfüzetek használatával. A jegyzetfüzetek az SQL mellett a Pythont, az R-t és a Scalát is támogatják, és lehetővé teszik a felhasználók számára, hogy a markdownban írt hivatkozások, képek és kommentárok mellett az örökölt irányítópultokon elérhető vizualizációkat beágyazhassanak.
A Unity Catalog egységes adatszabályozási modellt biztosít a data lakehouse-hoz. A felhőgazdák durva hozzáférés-vezérlési engedélyeket konfigurálnak és integrálnak a Unity Cataloghoz, majd az Azure Databricks rendszergazdái kezelhetik a csapatok és az egyének engedélyeit. A jogosultságok hozzáférés-vezérlési listákkal (ACL-ekkel) kezelhetők felhasználóbarát felhasználói felületeken vagy SQL-szintaxison keresztül, így az adatbázisgazdák egyszerűbben férhetnek hozzá az adatokhoz anélkül, hogy skálázniuk kellene a natív felhőbeli identitáshozzáférés-kezelést (IAM) és a hálózatkezelést.
A Unity Catalog egyszerűvé teszi a biztonságos elemzések futtatását a felhőben, és olyan felelősségi felosztást biztosít, amely segít korlátozni a platform rendszergazdái és végfelhasználói számára szükséges újraképezést vagy továbbképzést. Lásd a Mi az a Unity katalógus? témakört.
A lakehouse olyan egyszerűvé teszi a szervezeten belüli adatmegosztást, mintha lekérdezési hozzáférést biztosít egy táblához vagy nézethez. A biztonságos környezeten kívüli megosztáshoz a Unity Catalog a Delta Sharing egy felügyelt verzióját tartalmazza.
Az ETL-folyamatok, az ML-modellek és az elemzési irányítópultok fejlesztési életciklusai mindegyike saját egyedi kihívásokat jelent. Az Azure Databricks lehetővé teszi, hogy minden felhasználó egyetlen adatforrást használjon, ami csökkenti az ismétlődő erőfeszítéseket és a szinkronizáláson kívüli jelentéseket. A verziószámozáshoz, automatizáláshoz, ütemezéshez, kód- és éles erőforrások üzembe helyezéséhez szükséges gyakori eszközök csomagjának biztosításával egyszerűbbé teheti a figyeléssel, vezényléssel és üzemeltetéssel kapcsolatos többletterhelést. A feladatok Azure Databricks-jegyzetfüzeteket, SQL-lekérdezéseket és más tetszőleges kódot ütemeznek. A Git-mappák lehetővé teszik az Azure Databricks-projektek szinkronizálását számos népszerű git-szolgáltatóval. Az eszközök teljes áttekintéséért tekintse meg a Fejlesztői eszközök.
Az Azure Databricks az Apache Spark strukturált streamelést használja a streamelési adatok és a növekményes adatváltozások kezeléséhez. A strukturált stream szorosan integrálható a Delta Lake-zel, és ezek a technológiák biztosítják mind a Delta Live Tables, mind az Auto Loader alapjait. Lásd : Streamelés az Azure Databricksben.