Megjegyzés
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhat bejelentkezni vagy módosítani a címtárat.
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhatja módosítani a címtárat.
Az Azure Databricks egy egységes, nyílt elemzési platform nagyvállalati szintű adatok, elemzések és AI-megoldások nagy méretekben történő létrehozásához, üzembe helyezéséhez, megosztásához és karbantartásához. A Databricks Adatintelligencia-platform integrálható a felhőbeli tárhellyel és a felhőbeli biztonsággal, és felügyeli és üzembe helyezi a felhőinfrastruktúra használatát.
Az Azure Databricks generatív AI-t használ a data lakehouse használatával az adatok egyedi szemantikájának megértéséhez. Ezután automatikusan optimalizálja a teljesítményt, és az üzleti igényeknek megfelelően kezeli az infrastruktúrát.
A természetes nyelvi feldolgozás elsajátítja a vállalkozás nyelvét, így az adatok kereséséhez és felderítéséhez kérdéseket tehet fel saját szavaival. A természetes nyelvi segítség segít a kódírásban, a hibák elhárításában és a dokumentációban található válaszok megtalálásában.
Felügyelt nyílt forráskódú integráció
A Databricks elkötelezett a nyílt forráskódú közösség iránt, és kezeli a Databricks Runtime-kiadásokkal való nyílt forráskódú integráció frissítéseit. Az alábbi technológiák nyílt forráskód a Databricks alkalmazottai által eredetileg létrehozott projektek:
Gyakori használati esetek
Az alábbi használati esetek kiemelik, hogyan használják az ügyfelek az Azure Databrickset a kritikus üzleti funkciókat és döntéseket meghatározó adatok feldolgozásához, tárolásához és elemzéséhez nélkülözhetetlen feladatok elvégzéséhez.
Vállalati data lakehouse létrehozása
A data lakehouse a vállalati adattárházakat és adattavakat egyesíti, hogy felgyorsítsa, egyszerűsítse és egységesítse a vállalati adatmegoldásokat. Az adatmérnökök, az adattudósok, az elemzők és az éles rendszerek mind használhatják a Data Lakehouse-t az igazság egyetlen forrásaként, hozzáférést biztosítva a konzisztens adatokhoz, és csökkenthetik számos elosztott adatrendszer kiépítésének, karbantartásának és szinkronizálásának összetettségét. Lásd Mi az a data lakehouse?.
ETL és adatelemzés
Akár irányítópultokat hoz létre, akár mesterségesintelligencia-alkalmazásokat használ, az adatfejlesztés biztosítja az adatközpontú vállalatok gerincét azáltal, hogy biztosítja az adatok rendelkezésre állását, tisztítását és tárolását adatmodellekben a hatékony felderítés és használat érdekében. Az Azure Databricks ötvözi az Apache Spark és a Delta erejét és az egyéni eszközöket, hogy páratlan ETL-élményt nyújtson. Az SQL, a Python és a Scala használatával néhány kattintással összeállíthatja az ETL-logikát, és vezényli az ütemezett feladatok üzembe helyezését.
A Lakeflow Deklaratív folyamatok tovább egyszerűsítik az ETL-t azáltal, hogy intelligensen kezelik az adathalmazok közötti függőségeket, és automatikusan üzembe helyezik és méretezik az éles infrastruktúrát, így biztosítva az adatok pontos és időben történő továbbítását a specifikációknak.
Az Azure Databricks olyan eszközöket biztosít az adatbetöltéshez, mint az Auto Loader, amely hatékony és méretezhető eszköz a felhőalapú objektumok tárolóiból és adattóiból származó adatok növekményes és idempotens betöltéséhez a data lakehouse-ba.
Gépi tanulás, AI és adatelemzés
Az Azure Databricks machine learning kibővíti a platform alapvető funkcióit az adattudósok és az ML-mérnökök igényeinek megfelelő eszközökkel, beleértve az MLflow-t és a Databricks Runtime for Machine Learninget.
Nagy nyelvi modellek és generatív AI
A Databricks Runtime for Machine Learning olyan könyvtárakat tartalmaz, mint a Hugging Face Transformers, amelyek lehetővé teszik a meglévő előre betanított modellek vagy más nyílt forráskódú könyvtárak integrálását a munkafolyamatba. A Databricks MLflow integrációja megkönnyíti az MLflow nyomkövetési szolgáltatás használatát transzformátorfolyamatokkal, modellekkel és feldolgozási összetevőkkel. Integrálhatja az OpenAI-modelleket vagy -megoldásokat olyan partnerektől, mint a John Snow Labs a Databricks-munkafolyamatokban.
Az Azure Databricks segítségével testre szabhat egy LLM-et az adatain az adott feladathoz. Az olyan nyílt forráskódú eszközök támogatásával, mint a Hugging Face és a DeepSpeed, hatékonyan használhat egy alap LLM-et, és saját adataival kezdheti meg a tanítást, hogy pontosabb legyen a szakterülete és a munka terheléséhez.
Az Azure Databricks emellett olyan AI-függvényeket is biztosít, amelyekkel az SQL-adatelemzők közvetlenül az adatfolyamaikon és munkafolyamataikon belül hozzáférhetnek az LLM-modellekhez, például az OpenAI-ból. Lásd: Az AI alkalmazása az adatokra az Azure Databricks AI Functions használatával,.
Adattárház, elemzés és BI
Az Azure Databricks a felhasználóbarát felhasználói felületeket költséghatékony számítási erőforrásokkal és végtelenül méretezhető, megfizethető tárterülettel kombinálja, így hatékony platformot biztosít az elemzési lekérdezések futtatásához. A rendszergazdák SQL-raktárként konfigurálják a méretezhető számítási fürtöket, így a végfelhasználók anélkül hajthatják végre a lekérdezéseket, hogy a felhőben végzett munka bonyolultsága miatt kellene aggódniuk. Az SQL-felhasználók lekérdezéseket futtathatnak a lakehouse-beli adatokon az SQL-lekérdezésszerkesztő vagy a jegyzetfüzetek használatával. A jegyzetfüzetek az SQL mellett a Pythont, az R-t és a Scalát is támogatják, és lehetővé teszik a felhasználók számára, hogy a markdownban írt hivatkozások, képek és kommentárok mellett az örökölt irányítópultokon elérhető vizualizációkat beágyazhassanak.
Adatszabályozás és biztonságos adatmegosztás
A Unity Catalog egységes adatszabályozási modellt biztosít a data lakehouse-hoz. A felhőgazdák durva hozzáférés-vezérlési engedélyeket konfigurálnak és integrálnak a Unity Cataloghoz, majd az Azure Databricks rendszergazdái kezelhetik a csapatok és az egyének engedélyeit. A jogosultságok hozzáférés-vezérlési listákkal (ACL-ekkel) kezelhetők felhasználóbarát felhasználói felületeken vagy SQL-szintaxison keresztül, így az adatbázisgazdák egyszerűbben férhetnek hozzá az adatokhoz anélkül, hogy skálázniuk kellene a natív felhőbeli identitáshozzáférés-kezelést (IAM) és a hálózatkezelést.
A Unity Catalog egyszerűvé teszi a biztonságos elemzések futtatását a felhőben, és olyan felelősségi felosztást biztosít, amely segít korlátozni a platform rendszergazdái és végfelhasználói számára szükséges újraképezést vagy továbbképzést. Lásd Mi az a Unity Catalog?.
A lakehouse olyan egyszerűvé teszi a szervezeten belüli adatmegosztást, mintha lekérdezési hozzáférést biztosít egy táblához vagy nézethez. A biztonságos környezeten kívüli megosztáshoz a Unity Catalog a Delta Sharing egy felügyelt verzióját tartalmazza.
DevOps, CI/CD és feladat-vezénylés
Az ETL-folyamatok, az ML-modellek és az elemzési irányítópultok fejlesztési életciklusai mindegyike saját egyedi kihívásokat jelent. Az Azure Databricks lehetővé teszi, hogy minden felhasználó egyetlen adatforrást használjon, ami csökkenti az ismétlődő erőfeszítéseket és a szinkronizáláson kívüli jelentéseket. A verziószámozáshoz, automatizáláshoz, ütemezéshez, kód- és éles erőforrások üzembe helyezéséhez szükséges gyakori eszközök csomagjának biztosításával egyszerűbbé teheti a figyeléssel, vezényléssel és üzemeltetéssel kapcsolatos többletterhelést.
A feladatok Azure Databricks-jegyzetfüzeteket, SQL-lekérdezéseket és más tetszőleges kódot ütemeznek. A Databricks-eszközcsomagok lehetővé teszik a Databricks-erőforrások, például a feladatok és folyamatok programozott meghatározását, üzembe helyezését és futtatását. A Git-mappák lehetővé teszik az Azure Databricks-projektek szinkronizálását számos népszerű git-szolgáltatóval.
A CI/CD ajánlott eljárásait és javaslatait a Databricks ajánlott eljárásai és ajánlott CI-/CD-munkafolyamatai című témakörben talál. A fejlesztőknek szánt eszközök teljes áttekintéséért lásd a Fejlesztés a Databricksen című témakört.
Valós idejű és adatfolyam-elemzés
Az Azure Databricks az Apache Spark strukturált streamelést használja a streamelési adatok és a növekményes adatváltozások kezeléséhez. A strukturált stream szorosan integrálható a Delta Lake-zel, és ezek a technológiák biztosítják a Lakeflow deklaratív folyamatainak és az automatikus betöltőnek az alapjait. Lásd a strukturált streamelési fogalmakat.