Adatkalauzok

A Databricks Adatintelligencia-platform lehetővé teszi, hogy a szervezet adatszakértői közösen működjenek együtt, és közös, biztonságosan szabályozott adategységek és eszközök használatával működjenek együtt és élesítsék az adatmegoldásokat.

Ez a lap segít azonosítani a használati eset megfelelő kiindulópontját.

Az Azure Databricks számos feladata emelt szintű engedélyeket igényel. Számos szervezet korlátozza ezeket az emelt szintű engedélyeket kis számú felhasználóra vagy csapatra. Ez a lap megkülönbözteti azokat a műveleteket, amelyeket a munkaterület felhasználóinak többsége hajthat végre, azoktól, amelyek kizárólag kiemelt felhasználókra korlátozottak.

A munkaterület rendszergazdái segíthetnek eldönteni, hogy hozzáférést kell-e kérnie az eszközökhöz, vagy emelt szintű engedélyeket kell kérnie.

Adatok keresése és elérése

Ez a szakasz rövid áttekintést nyújt azokról a feladatokról, amelyek segítenek felderíteni az Ön számára elérhető adategységeket. A legtöbb ilyen feladat feltételezi, hogy egy rendszergazda konfigurálta az adategységekre vonatkozó engedélyeket. Lásd Az adatelérés konfigurálása.

Funkcióterület Resources
Adatfelderítés Az adatfelderítési feladatok részletesebb áttekintéséért lásd: Adatok felderítése.
Catalogs A katalógusok a Unity Catalog adatszabályozási modelljének legfelső szintű objektumai. A Katalóguskezelő segítségével kereshet táblázatokat, nézeteket és egyéb adategységeket. Lásd: Adatbázis-objektumok felfedezése.
Csatlakoztatott tároló Ha rendelkezik számítási erőforrásokhoz való hozzáféréssel, beépített parancsokkal feltárhatja a csatlakoztatott tárolóban lévő fájlokat. Lásd Tárterület és adatfájlok keresésecímű témakört.
Helyi fájlok feltöltése A felhasználók alapértelmezés szerint rendelkeznek engedéllyel kis adatfájlok feltöltésére a helyi gépről, például CSV-ről. Lásd: Tábla létrehozása vagy módosítása fájlfeltöltésihasználatával.

Adatok használata

Ez a szakasz áttekintést nyújt a gyakori adatfeladatokról és a feladatok végrehajtásához használt eszközökről.

Az összes leírt feladathoz a felhasználóknak megfelelő engedélyekkel kell rendelkezniük az eszközökhöz, számítási erőforrásokhoz, adatokhoz és egyéb munkaterület-összetevőkhöz. Lásd a következőket: adatelérési konfigurálása és munkaterületek és infrastruktúra konfigurálása.

Funkcióterület Resources
Adatbázis-objektumok A táblák és nézetek mellett az Azure Databricks más biztonságos adatbázis-objektumokat, például köteteket is használ az adatok biztonságos szabályozásához. Lásd: Adatbázis-objektumok az Azure Databricks.
Adatengedélyek A Unity Katalógus az engedélyezett munkaterületeken végzett összes olvasási és írási műveletet szabályozza. A műveletek elvégzéséhez megfelelő engedélyekkel kell rendelkeznie. Lásd: Biztonságos objektumok a Unity Catalog.
ETL A számítási feladatok kinyerése, átalakítása és betöltése (ETL) az Apache Spark és az Azure Databricks leggyakoribb felhasználási módjai közé tartozik, és a platform nagy része rendelkezik az ETL-hez készült és optimalizált funkciókkal. Lásd az oktatóanyagot: ETL-folyamat létrehozása a Lakeflow Spark deklaratív folyamataival.
Queries
Irányítópultok & elemzések
  • Az AI/BI-irányítópultok segítségével könnyen kinyerheti és megjelenítheti az elemzéseket a felhasználói felületen. Lásd: Irányítópultok.
  • A Genie Spaces szöveges utasításokat használ a kérdések megválaszolásához és az adatok által tájékozott elemzésekhez. Lásd Mi az a Genie Space.
Ingest
  • A Lakeflow Connect betölti a népszerű külső rendszerek adatait. Lásd: Felügyelt csatlakozók a Lakeflow Connectben.
  • Az automatikus betöltő a Lakeflow Spark deklaratív folyamatokkal vagy strukturált streamelési feladatokkal használható az adatok növekményes betöltéséhez a felhőobjektum-tárolóból. Lásd Mi az automatikus betöltő?.
  • A Lakeflow Spark deklaratív folyamataival vagy strukturált streamelésével adatokat vehet fel az üzenetsorokból, például a Kafkából. Lásd: Streamelési adatok lekérdezése.
Transformations Az Azure Databricks általános szintaxist és eszközt használ az SQL CTAS-utasításoktól a közel valós idejű streamelési alkalmazásokig terjedő összetettségű átalakításokhoz.
AI és gépi tanulás A Databricks Adatintelligencia-platform adatelemzési, gépi tanulási és AI-alkalmazásokhoz kínál eszközöket. Lásd: Gépi tanulás az Azure Databricksben.

Adathozzáférés konfigurálása

A legtöbb Azure Databricks-munkaterület a munkaterület rendszergazdájára vagy más energiafelhasználókra támaszkodik a külső adatforrásokhoz való kapcsolatok konfigurálásához, valamint a csoporttagság, a régió vagy a szerepkörök alapján az adategységekre vonatkozó jogosultságok kikényszerítéséhez. Ez a szakasz áttekintést nyújt az emelt szintű engedélyeket igénylő adat-hozzáférések konfigurálásához és ellenőrzéséhez szükséges gyakori feladatokról.

Note

Mielőtt emelt szintű engedélyeket kér egy új kapcsolat adatforráshoz való konfigurálásához, ellenőrizze, hogy csak hiányzó jogosultságok vannak-e egy meglévő kapcsolaton, katalóguson vagy táblán. Ha egy adatforrás nem érhető el, forduljon a szervezetéhez az új adatok munkaterülethez való hozzáadására vonatkozó szabályzattal kapcsolatban.

Funkcióterület Resources
Unity-katalógus
  • A Unity Catalog a Databricks Adatintelligencia-platformba beépített adatszabályozási funkciókat alakítja ki. Lásd Mi az a Unity Catalog?.
  • A Databricks-fiókgazdák, munkaterület-rendszergazdák és metaadattár-rendszergazdák alapértelmezett jogosultságokkal rendelkeznek a Unity Catalog felhasználói adatjogjogainak kezeléséhez. Lásd: Jogosultságok kezelése a Unity Catalog.
Kapcsolatok és hozzáférés
Katalógusok és irányítópultok megosztása
  • A rendszergazdák új katalógusokat hozhatnak létre. A katalógusok magas szintű absztrakciót biztosítanak az adatelkülönítéshez, és az egyes munkaterületekhez köthetők, vagy megoszthatók egy fiók összes munkaterületén. Lásd: Katalógusok létrehozása.
  • Az AI-/BI-irányítópultok arra ösztönzik a tulajdonosokat, hogy közzétételkor beágyazhassák hitelesítő adataikat, így biztosítva, hogy a megtekintők betekintést nyerhessenek a megosztott eredményekből. További információ: Irányítópult megosztása.

Munkaterületek és infrastruktúra konfigurálása

Ez a szakasz áttekintést nyújt a munkaterület eszközeinek és infrastruktúrájának felügyeletével kapcsolatos gyakori feladatokról. A munkaterületi objektumok széles körben definiálva a következőket tartalmazzák:

  • Számítási erőforrások: A számítási erőforrások tartalmazzák az általános célú interaktív fürtöket, az SQL-raktárakat, a feladatfürtöket és a pipelinszámítást. A felhasználónak vagy számítási feladatnak rendelkeznie kell engedéllyel a számítási erőforrások futtatásához a megadott logika feldolgozásához.

    Note

    Azok a felhasználók, akik nem rendelkeznek hozzáféréssel a számítási erőforrásokhoz való csatlakozáshoz, nagyon korlátozott funkciókkal rendelkeznek az Azure Databricksben.

  • Platform-eszközök: A Databricks adatintelligencia-platform különböző használati esetekre és személyre szabott eszközöket kínál, például jegyzetfüzetekhez, Databricks SQL-hez és Azure Databricks AI-funkciókhoz. A rendszergazdák számos ilyen eszközhöz testre szabhatják az alapértelmezett viselkedést, az opcionális funkciókat és a felhasználói hozzáférést tartalmazó beállításokat.

  • összetevők: Az összetevők közé tartoznak a jegyzetfüzetek, lekérdezések, irányítópultok, fájlok, tárak, folyamatok és feladatok. Az összetevők olyan kódot és konfigurációkat tartalmaznak, amelyeket a felhasználók a kívánt műveletek végrehajtásához az adataikon végeznek.

Important

A munkaterület-objektumot létrehozó felhasználó alapértelmezés szerint a tulajdonosi szerepkörhöz van hozzárendelve. A legtöbb eszköz esetében a tulajdonosok engedélyeket adhatnak a munkaterület bármely más felhasználójának vagy csoportjának.

Az adatok és a kód biztonsága érdekében a Databricks azt javasolja, hogy konfigurálja a tulajdonosi szerepkört az éles munkaterületen üzembe helyezett összes összetevőhöz és számítási erőforráshoz.

Funkcióterület Resources
Munkaterület-jogosultságok A munkaterület-jogosultságok közé tartozik az alapszintű munkaterület-hozzáférés, a Databricks SQL-hozzáférés és a korlátlan fürtök létrehozása. Lásd: Jogosultságok kezelése.
Számítási erőforrás-hozzáférési & szabályzatok
  • Az Azure Databricks legtöbb költsége a számítási erőforrásokat terheli. A költségek szabályozásához elengedhetetlen annak szabályozása, hogy mely felhasználók konfigurálhatják, helyezhetik üzembe, indíthatják el és használhatják a különböző erőforrásokat. Tekintse meg a klasszikus számítás áttekintését.
  • A számítási szabályzatok a munkaterület számítási jogosultságaival párhuzamosan működnek, hogy a jogosult felhasználók csak a megadott konfigurációs szabályok szerint helyezhessenek üzembe számítási erőforrásokat. Lásd: Számítási szabályzatok létrehozása és kezelése.
  • A rendszergazdák konfigurálhatják az alapértelmezett viselkedést, az adatelérési szabályzatokat és az SQL-raktárakhoz való felhasználói hozzáférést. Lásd SQL Warehouse felügyeleti beállításait.
Platformeszközök A felügyeleti konzol használatával konfigurálhatja a munkaterület megjelenésének testreszabásától a termékek és szolgáltatások engedélyezéséig vagy letiltásáig terjedő viselkedéseket. Lásd: Munkaterület kezelése.
Munkaterületi ACL-ek A munkaterület-hozzáférés-vezérlési listák (ACL-ek) szabályozzák, hogy a felhasználók és csoportok hogyan használhatják a munkaterület-objektumokat, beleértve a számítási erőforrásokat, a kódösszetevőket és a feladatokat. Lásd: Hozzáférés-vezérlési listák.

Számítási feladatok élesítése

Minden Azure Databricks-termék úgy lett létrehozva, hogy felgyorsítsa az átmenetet a fejlesztési fázisból az éles környezetbe, és a skálázhatóság és a stabilitás érdekében működjön. Ez a szakasz rövid bevezetést nyújt az ajánlott eszközkészlethez, amely a számítási feladatok éles környezetbe való bevezetését segíti.

Funkcióterület Resources
ETL-adatfolyamok A Lakeflow Spark Deklaratív folyamatok deklaratív szintaxist biztosítanak az ETL-folyamatok létrehozásához és előállításához. Lásd Lakeflow Spark deklaratív csővezetékek.
Orchestration A feladatok segítségével összetett munkafolyamatokat definiálhat függőségekkel, eseményindítókkal és ütemezésekkel. Lásd Lakeflow Jobs.
CI/CD A deklaratív Automation-csomagok megkönnyítik az adatok, eszközök és összetevők kezelését és üzembe helyezését a munkaterületeken. Lásd : Mik azok a deklaratív automatizálási csomagok?.