Az Azure Databricks üzembe helyezése az Azure-beli virtuális hálózaton (VNet-injektálás)

Az Azure Databricks alapértelmezett üzemelő példánya egy teljes körűen felügyelt szolgáltatás az Azure-ban: minden adatsík-erőforrás, beleértve az összes fürthöz társított virtuális hálózatot is, egy zárolt erőforráscsoportban lesz üzembe helyezve. Ha azonban szükség van a hálózat testreszabására, az Azure Databricks adatsík-erőforrásait a saját virtuális hálózatában (más néven VNet-injektálásban) helyezheti üzembe, így a következőket teheti:

Az Azure Databricks adatsík-erőforrásainak saját virtuális hálózaton való üzembe helyezése lehetővé teszi a rugalmas CIDR-tartományok előnyeit is (a virtuális hálózat és /26 az alhálózatok között/24/16-bárhol).

Fontos

Meglévő munkaterület virtuális hálózatát nem cserélheti le. Ha az aktuális munkaterület nem képes a szükséges számú aktív fürtcsomópont kezelésére, azt javasoljuk, hogy hozzon létre egy másik munkaterületet egy nagyobb virtuális hálózaton. Kövesse az alábbi részletes migrálási lépéseket az erőforrások (jegyzetfüzetek, fürtkonfigurációk, feladatok) átmásolásához a régiről az új munkaterületre.

Fontos

Ez a cikk az adatsík kifejezést említi, amely az Azure Databricks platform számítási rétege. A cikk kontextusában az adatsík az Azure-előfizetés klasszikus adatsíkjára hivatkozik. Ezzel szemben a kiszolgáló nélküli SQL Warehouse-t (nyilvános előzetes verzió) támogató kiszolgáló nélküli adatsík az Azure Databricks Azure-előfizetésében fut. További információ: Kiszolgáló nélküli számítás.

Virtuális hálózati követelmények

Az Azure Databricks-munkaterületet üzembe helyező virtuális hálózatnak meg kell felelnie a következő követelményeknek:

  • Régió: A virtuális hálózatnak ugyanabban a régióban kell lennie, mint az Azure Databricks-munkaterületnek.

  • Előfizetés: A virtuális hálózatnak ugyanabban az előfizetésben kell lennie, mint az Azure Databricks-munkaterületnek.

  • Címtér: A virtuális hálózat és /24 a virtuális hálózat közötti /16 CIDR-blokk, valamint egy CIDR-blokk /26 a két alhálózatig: egy tárolóalhálózathoz és egy gazdagépalhálózathoz. A virtuális hálózat és az alhálózatok mérete alapján maximális fürtcsomópontokról a Címtér és a fürtcsomópontok maximális száma című témakörben talál útmutatást.

  • Alhálózatok: A virtuális hálózatnak tartalmaznia kell két, az Azure Databricks-munkaterületnek dedikált alhálózatot: egy tárolóalhálózatot (más néven privát alhálózatot) és egy gazdagép-alhálózatot (más néven nyilvános alhálózatot). A biztonságos fürtkapcsolatot használó munkaterületek esetében azonban mind a tárolóalhálózat, mind a gazdagép alhálózata privát. Nem támogatott az alhálózatok munkaterületek közötti megosztása vagy más Azure-erőforrások üzembe helyezése az Azure Databricks-munkaterület által használt alhálózatokon. A virtuális hálózat és az alhálózatok mérete alapján maximális fürtcsomópontokról a Címtér és a fürtcsomópontok maximális száma című témakörben talál útmutatást.

    Fontos

    Az alhálózatok és az Azure Databricks-munkaterületek között egy-az-egyhez kapcsolat áll fenn. Nem oszthat meg több munkaterületet egyetlen alhálózaton. Nem támogatott az alhálózatok munkaterületek közötti megosztása vagy más Azure-erőforrások üzembe helyezése az Azure Databricks-munkaterület által használt alhálózatokon.

A virtuális hálózat konfigurálásához és a munkaterület üzembe helyezéséhez szükséges sablonokkal kapcsolatos további információkért lásd: Azure-Databricks által biztosított Azure-Resource Manager-sablonok.

Címtér és a fürtcsomópontok maximális száma

A kisebb virtuális hálózattal rendelkező munkaterületek gyorsabban elfogyhatnak az IP-címekből (hálózati területből), mint a nagyobb virtuális hálózattal rendelkező munkaterületek. Használjon CIDR-blokkot a virtuális hálózat és a virtuális hálózat között /16 , /24 valamint egy CIDR-blokkot a két alhálózatig (a tárolóalhálózathoz és a gazdagép alhálózatához /26 ).

A virtuális hálózati címtér CIDR-tartománya befolyásolja a munkaterület által használható fürtcsomópontok maximális számát:

  • Az Azure Databricks-munkaterülethez két alhálózatra van szükség a virtuális hálózaton: egy tárolóalhálózatra (más néven privát alhálózatra) és egy gazdagép-alhálózatra (más néven nyilvános alhálózatra). Ha a munkaterület biztonságos fürtkapcsolatot használ, a tároló és a gazdagép alhálózata is privát.
  • Az Azure minden alhálózatban öt IP-címet foglal le.
  • Az Egyes alhálózatokon belül az Azure Databricks fürtcsomópontonként egy IP-címet igényel. Összesen két IP-cím tartozik minden fürtcsomóponthoz: egy IP-cím a gazdagép alhálózatában lévő gazdagéphez és egy IP-cím a tároló alhálózatában lévő tárolóhoz.
  • Előfordulhat, hogy nem szeretné a virtuális hálózat összes címterét használni. Előfordulhat például, hogy több munkaterületet szeretne létrehozni egy virtuális hálózatban. Mivel nem oszthat meg alhálózatokat a munkaterületek között, előfordulhat, hogy olyan alhálózatokat szeretne használni, amelyek nem használják a teljes virtuális hálózat címterét.
  • Két új alhálózat címterét kell lefoglalnia, amelyek a virtuális hálózat címterén belül találhatók, és nem fedik át az adott virtuális hálózat aktuális vagy jövőbeli alhálózatainak címterét.

Az alábbi táblázat a maximális alhálózatméretet mutatja a hálózati méret alapján. Ez a táblázat feltételezi, hogy nem léteznek további alhálózatok, amelyek címteret foglalnak el. Használjon kisebb alhálózatokat, ha már meglévő alhálózatokkal rendelkezik, vagy ha más alhálózatok címterét szeretné lefoglalni:

Virtuális hálózati címtér (CIDR) Az Azure Databricks-alhálózat maximális mérete (CIDR), feltéve, hogy nincsenek más alhálózatok
/16 /17
/17 /18
/18 /19
/20 /21
/21 /22
/22 /23
/23 /24
/24 /25

Az alhálózat mérete alapján a maximális fürtcsomópontok megkereséséhez használja az alábbi táblázatot. Az alhálózatonkénti IP-címek oszlop az öt Azure által fenntartott IP-címet tartalmazza. A jobb szélső oszlop azoknak a fürtcsomópontoknak a számát jelzi, amelyek egyidejűleg futtathatók egy olyan munkaterületen, amely ilyen méretű alhálózatokkal van kiépítve.

Alhálózat mérete (CIDR) IP-címek alhálózatonként Azure Databricks-fürtcsomópontok maximális száma
/17 32768 32763
/18 16384 16379
/19 8192 8187
/20 4096 4091
/21 2048 2043
/22 1024 1019
/23 512 507
/24 256 251
/25 128 123
/26 64 59

Azure Databricks-munkaterület létrehozása Azure Portal használatával

Ez a szakasz azt ismerteti, hogyan hozhat létre Azure Databricks-munkaterületet a Azure Portal, és hogyan helyezheti üzembe a saját meglévő virtuális hálózatában. Az Azure Databricks két új alhálózattal frissíti a virtuális hálózatot, ha azok még nem léteznek, a megadott CIDR-tartományokkal. A szolgáltatás egy új hálózati biztonsági csoporttal frissíti az alhálózatokat, konfigurálja a bejövő és kimenő szabályokat, és végül üzembe helyezi a munkaterületet a frissített virtuális hálózaton. A virtuális hálózat konfigurációjának további szabályozásához használja az Azure-Databricks által biztosított Azure Resource Manager -sablonokat a portál felhasználói felülete helyett. Használjon például meglévő hálózati biztonsági csoportokat, vagy hozzon létre saját biztonsági szabályokat. Lásd: Speciális konfiguráció Azure Resource Manager-sablonok használatával.

Fontos

A munkaterületet létrehozó felhasználóhoz hálózati közreműködői szerepkört vagy a műveletet hozzárendelő Microsoft.Network/virtualNetworks/subnets/join/actionegyéni szerepkört kell hozzárendelni.

Konfigurálnia kell egy virtuális hálózatot, amelyen üzembe helyezi az Azure Databricks-munkaterületet. Használhat meglévő virtuális hálózatot, vagy létrehozhat egy újat, de a virtuális hálózatnak ugyanabban a régióban és előfizetésben kell lennie, mint a létrehozni kívánt Azure Databricks-munkaterületnek. A virtuális hálózatot /16 és /24 közötti CIDR-tartománnyal kell méretezni. További követelményekért lásd: Virtuális hálózati követelmények.

A munkaterület konfigurálásakor használhat meglévő alhálózatokat, vagy megadhat neveket és IP-címtartományokat az új alhálózatokhoz.

  1. A Azure Portal válassza a + Erőforrás-elemzés >> létrehozása Azure Databricks lehetőséget, vagy keressen rá az Azure Databricks kifejezésre, majd kattintson a Létrehozás vagy a + Hozzáadás gombra az Azure Databricks Service párbeszédpanel elindításához.

  2. Kövesse az Azure Databricks-munkaterület saját virtuális hálózatban való létrehozását ismertető rövid útmutatóban leírt konfigurációs lépéseket.

  3. A Hálózat lapon válassza ki a Virtuális hálózat mezőben használni kívánt virtuális hálózatot .

    Fontos

    Ha nem látja a hálózat nevét a pickerben, ellenőrizze, hogy a munkaterülethez megadott Azure-régió megegyezik-e a kívánt virtuális hálózat Azure-régiójával.

    Virtuális hálózat kiválasztása

  4. Nevezze el az alhálózatokat, és adjon meg CIDR-tartományokat egy blokkban, méretig /26. A virtuális hálózat és az alhálózatok mérete alapján maximális fürtcsomópontokról a Címtér és a fürtcsomópontok maximális száma című témakörben talál útmutatást.

    • Meglévő alhálózatok megadásához adja meg a meglévő alhálózatok pontos nevét. Meglévő alhálózatok használatakor állítsa be a munkaterület-létrehozási űrlap IP-tartományait is úgy, hogy pontosan egyezzenek a meglévő alhálózatok IP-címtartományával.
    • Új alhálózatok létrehozásához adja meg azokat az alhálózatneveket, amelyek még nem léteznek az adott virtuális hálózatban. Az alhálózatok a megadott IP-címtartományokkal jönnek létre. Meg kell adnia az IP-címtartományokat a virtuális hálózat IP-tartományán belül, és még nem foglalható le a meglévő alhálózatokhoz.

    Fontos

    Az Azure Databricks megköveteli, hogy az alhálózatok neve ne legyen hosszabb 30 karakternél. Ez rövidebb, mint a Azure Portal alhálózatainak megengedett maximális hossza. Meglévő alhálózat használata előtt nevezze át, ha a neve hosszabb 30 karakternél.

    Az alhálózatok olyan társított hálózati biztonsági csoportszabályokat kapnak, amelyek tartalmazzák a fürt belső kommunikációjának engedélyezésére vonatkozó szabályt. Az Azure Databricks delegált engedélyekkel rendelkezik mindkét alhálózat frissítéséhez az Microsoft.Databricks/workspaces erőforrás-szolgáltatón keresztül. Ezek az engedélyek csak az Azure Databricks által megkövetelt hálózati biztonságicsoport-szabályokra vonatkoznak, a hozzáadott egyéb hálózati biztonságicsoport-szabályokra, illetve az összes hálózati biztonsági csoport alapértelmezett hálózati biztonságicsoport-szabályaira.

  5. Kattintson a Létrehozás gombra az Azure Databricks-munkaterület virtuális hálózaton való üzembe helyezéséhez.

    Megjegyzés

    Ha egy munkaterület üzembe helyezése meghiúsul, a munkaterület továbbra is létrejön, de sikertelen állapotban van. Törölje a sikertelen munkaterületet, és hozzon létre egy új munkaterületet, amely megoldja az üzembehelyezési hibákat. A sikertelen munkaterület törlésekor a felügyelt erőforráscsoport és a sikeresen üzembe helyezett erőforrások is törlődnek.

Speciális konfiguráció Azure Resource Manager-sablonokkal

Ha nagyobb mértékben szeretné szabályozni a virtuális hálózat konfigurációját, a portál-UI-alapú automatikus virtuális hálózat konfigurációja és a munkaterület üzembe helyezése helyett az alábbi Azure Resource Manager -sablonokat használhatja. Használjon például meglévő alhálózatokat, meglévő hálózati biztonsági csoportot, vagy adjon hozzá saját biztonsági szabályokat.

Ha egyéni Azure Resource Manager-sablont vagy Azure Databricks virtuális hálózat-injektálás munkaterület-sablont használ egy munkaterület meglévő virtuális hálózaton való üzembe helyezéséhez, akkor a munkaterület üzembe helyezése előtt létre kell hoznia egy gazdagép- és tárolóalhálózatot, hálózati biztonsági csoportot kell csatolnia minden alhálózathoz, és delegálnia kell az alhálózatokat Microsoft.Databricks/workspaces az erőforrás-szolgáltatónak. Minden üzembe helyezett munkaterülethez külön alhálózatpárnak kell lennie.

Minden az egyben sablon

Ha egy virtuális hálózatot és egy Azure Databricks-munkaterületet szeretne létrehozni egy sablonnal, használja az Azure Databricks virtuális hálózatba ágyazott munkaterületekhez készült All-in-one sablont.

Virtuális hálózati sablon

Ha sablonnal szeretne létrehozni egy megfelelő alhálózatokkal rendelkező virtuális hálózatot, használja a Databricks VNet-injektáláshoz használt VNet-sablont.

Azure Databricks-munkaterület sablonja

Ha azure Databricks-munkaterületet szeretne üzembe helyezni egy sablonnal rendelkező meglévő virtuális hálózaton, használja az Azure Databricks virtuális hálózatok injektálásához használható munkaterületsablont.

A munkaterület-sablon lehetővé teszi egy meglévő virtuális hálózat megadását és a meglévő alhálózatok használatát:

  • Minden üzembe helyezett munkaterülethez külön gazdagép-/tárolóalhálózat-párnak kell rendelkeznie. Nem támogatott az alhálózatok munkaterületek közötti megosztása vagy más Azure-erőforrások üzembe helyezése az Azure Databricks-munkaterület által használt alhálózatokon.
  • A virtuális hálózat gazdagép- és tárolóalhálózatainak hálózati biztonsági csoportokkal kell rendelkezniük, és delegálni kell a Microsoft.Databricks/workspaces szolgáltatáshoz, mielőtt ezzel az Azure Resource Manager sablonnal üzembe helyeznénk a munkaterületet.
  • Ha megfelelően delegált alhálózatokkal rendelkező virtuális hálózatot szeretne létrehozni, használja a Databricks VNet-injektálás VNet-sablonját.
  • Ha meglévő virtuális hálózatot szeretne használni, ha még nem delegálta a gazdagépet és a tárolóalhálózatokat, olvassa el az Alhálózat-delegálás hozzáadása vagy eltávolítása vagy A VNet-injektálás előzetes verziójú munkaterületének frissítése ga-ra című témakört.

Hálózati biztonsági csoport szabályai

Az alábbi táblázatok az Azure Databricks által használt aktuális hálózati biztonsági csoportszabályokat jelenítik meg. Ha az Azure Databricksnek hozzá kell adnia egy szabályt, vagy módosítania kell egy meglévő szabály hatókörét ezen a listán, előzetes értesítést kap. Ez a cikk és a táblák minden ilyen módosítás alkalmával frissülnek.

Ebben a szakaszban:

Hogyan kezeli az Azure Databricks a hálózati biztonsági csoport szabályait?

A következő szakaszokban felsorolt NSG-szabályok azokat képviselik, amelyeket az Azure Databricks automatikusan kiépít és kezel az NSG-ben a virtuális hálózat gazdagép- és tárolóalhálózatainak szolgáltatásra Microsoft.Databricks/workspaces delegálása révén. Nincs engedélye ezeknek az NSG-szabályoknak a frissítésére vagy törlésére; az alhálózat-delegálás letiltja az erre irányuló kísérleteket. Az Azure Databricksnek rendelkeznie kell ezekkel a szabályokkal annak érdekében, hogy a Microsoft megbízhatóan tudja üzemeltetni és támogatni az Azure Databricks szolgáltatást a virtuális hálózaton.

Ezen NSG-szabályok némelyikéhez a VirtualNetwork van hozzárendelve forrásként és célként. Ez azért lett megvalósítva, hogy egyszerűbbé tegye a tervezést, ha nincs alhálózati szintű szolgáltatáscímke az Azure-ban. Az összes fürtöt belsőleg egy második hálózati szabályzatréteg védi, így az A fürt nem tud csatlakozni a B fürthöz ugyanabban a munkaterületen. Ez több munkaterületre is vonatkozik, ha a munkaterületek egy másik alhálózatpárba vannak üzembe helyezve ugyanabban az ügyfél által felügyelt virtuális hálózatban.

Fontos

Ha a munkaterület virtuális hálózata egy másik, ügyfél által felügyelt hálózattal van társítva, vagy ha a nem Azure Databricks-erőforrások más alhálózatokon vannak kiépítve, a Databricks azt javasolja, hogy adja hozzá a bejövő megtagadási szabályokat a többi hálózathoz és alhálózathoz csatolt NSG-khez az Azure Databricks-fürtök forrásforgalmának blokkolása érdekében. Nem kell olyan szabályokat hozzáadnia az erőforrásokhoz, amelyekhez csatlakozni szeretne az Azure Databricks-fürtökhöz.

A 2020. január 13. után létrehozott munkaterületek hálózati biztonságicsoport-szabályai

Az ebben a szakaszban található információk csak a 2020. január 13. után létrehozott Azure Databricks-munkaterületekre vonatkoznak. Ha a munkaterületet a biztonságos fürtkapcsolat (SCC) 2020. január 13-i kiadása előtt hozták létre, tekintse meg a következő szakaszt.

Fontos

Ez a táblázat felsorol két bejövő biztonságicsoport-szabályt, amelyek csak akkor szerepelnek, ha a biztonságos fürtkapcsolat (SCC) le van tiltva.

Irány Protokoll Forrás Forrásport Cél Dest Port Használt
Bejövő Bármelyik VirtualNetwork Bármelyik VirtualNetwork Bármelyik Alapértelmezett
Bejövő TCP AzureDatabricks (szolgáltatáscímke)
Csak akkor, ha az SCC le van tiltva
Bármelyik VirtualNetwork 22 Nyilvános IP-cím
Bejövő TCP AzureDatabricks (szolgáltatáscímke)
Csak akkor, ha az SCC le van tiltva
Bármelyik VirtualNetwork 5557 Nyilvános IP-cím
Kimenő TCP VirtualNetwork Bármelyik AzureDatabricks (szolgáltatáscímke) 443 Alapértelmezett
Kimenő TCP VirtualNetwork Bármelyik SQL 3306 Alapértelmezett
Kimenő TCP VirtualNetwork Bármelyik Tárolás 443 Alapértelmezett
Kimenő Bármelyik VirtualNetwork Bármelyik VirtualNetwork Bármelyik Alapértelmezett
Kimenő TCP VirtualNetwork Bármelyik EventHub 9093 Alapértelmezett
Kimenő Bármelyik VirtualNetwork Bármelyik NFS 111 Alapértelmezett
Kimenő Bármelyik VirtualNetwork Bármelyik NFS 2049 Alapértelmezett

A 2020. január 13. előtt létrehozott munkaterületek hálózati biztonsági csoportszabályai

Az ebben a szakaszban található információk csak a 2020. január 13. előtt létrehozott Azure Databricks-munkaterületekre vonatkoznak. Ha a munkaterület 2020. január 13-án vagy azt követően jött létre, tekintse meg az előző szakaszt.

Irány Protokoll Forrás Forrásport Cél Dest Port Használt
Bejövő Bármelyik VirtualNetwork Bármelyik VirtualNetwork Bármelyik Alapértelmezett
Bejövő TCP ControlPlane IP Bármelyik VirtualNetwork 22 Nyilvános IP-cím
Bejövő TCP ControlPlane IP Bármelyik VirtualNetwork 5557 Nyilvános IP-cím
Kimenő TCP VirtualNetwork Bármelyik Webalkalmazás IP-címe 443 Alapértelmezett
Kimenő TCP VirtualNetwork Bármelyik SQL 3306 Alapértelmezett
Kimenő TCP VirtualNetwork Bármelyik Tárolás 443 Alapértelmezett
Kimenő Bármelyik VirtualNetwork Bármelyik VirtualNetwork Bármelyik Alapértelmezett
Kimenő TCP VirtualNetwork Bármelyik EventHub 9093 Alapértelmezett

Fontos

Az Azure Databricks egy Microsoft Azure belső szolgáltatás, amely a globális Azure nyilvános felhőinfrastruktúrában van üzembe helyezve. A szolgáltatás összetevői közötti kommunikáció, beleértve a vezérlősíkon lévő nyilvános IP-címek és az ügyfél adatsíkja közötti kommunikációt, a Microsoft Azure hálózati gerinchálózatán belül marad. Lásd még: Microsoft globális hálózat.

Hibaelhárítás

Munkaterület-létrehozási hibák

Az alhálózathoz a következő delegálás(ok) bármelyike [Microsoft.Databricks/workspaces] szükséges a szolgáltatástársítás hivatkozásának hivatkozásához

Lehetséges ok: olyan virtuális hálózaton hoz létre munkaterületet, amelynek gazdagép- és tárolóalhálózatai nincsenek delegálva a Microsoft.Databricks/workspaces szolgáltatásba. Mindegyik alhálózathoz csatolni kell egy hálózati biztonsági csoportot, és megfelelően delegálni kell őket. További információért tekintse meg a virtuális hálózatra vonatkozó követelményeket.

Az alhálózat már használatban van a munkaterületen

Lehetséges ok: egy meglévő Azure Databricks-munkaterület által már használt gazdagép- és tárolóalhálózatokkal rendelkező virtuális hálózaton hoz létre munkaterületet. Nem oszthat meg több munkaterületet egyetlen alhálózaton. Minden üzembe helyezett munkaterülethez új gazdagép- és tároló-alhálózattal kell rendelkeznie.

Hibaelhárítás

A példányok nem érhetők el: Az erőforrások nem érhetők el az SSH-val.

Lehetséges ok: a vezérlősíkról a feldolgozókra érkező forgalom blokkolva van. Ha a helyszíni hálózathoz csatlakoztatott meglévő virtuális hálózaton helyezi üzembe az üzembe helyezést, tekintse át a telepítést az Azure Databricks-munkaterület csatlakoztatása a helyszíni hálózathoz című témakörben található információk alapján.

Váratlan indítási hiba: Váratlan hiba történt a fürt beállításakor. Próbálkozzon újra, és ha a probléma továbbra is fennáll, forduljon az Azure Databricks csapatához. Belső hibaüzenet: Timeout while placing node.

Lehetséges ok: a feldolgozók és az Azure Storage-végpontok közötti forgalom le van tiltva. Ha egyéni DNS-kiszolgálókat használ, ellenőrizze a virtuális hálózaton található DNS-kiszolgálók állapotát is.

Felhőszolgáltató indítási hibája: A felhőszolgáltató oldalán hiba lépett fel a fürt beállítása során. További információt az Azure Databricks útmutatójában talál. Azure-hibakód: AuthorizationFailed/InvalidResourceReference.

Lehetséges ok: a virtuális hálózat vagy az alhálózatok már nem léteznek. Győződjön meg arról, hogy a virtuális hálózat és az alhálózatok léteznek.

Fürt leállítva. Ok: Spark indítási hibája: A Spark nem tudott időben elindulni. Ezt a problémát okozhatja egy hibás Hive-metaadattár, érvénytelen Spark-konfigurációk vagy hibás init szkriptek. Tekintse meg a Spark-illesztő naplóit a probléma elhárításához, és ha a probléma továbbra is fennáll, forduljon a Databrickshez. Belső hibaüzenet: Spark failed to start: Driver failed to start in time.

Lehetséges ok: A tároló nem tud beszélni az üzemeltetési példánysal vagy a DBFS-tárfiókokkal. Ezt úgy oldhatja meg, hogy hozzáadja az alhálózatokhoz a DBFS-tárfiók útvonalát, amelynél a következő ugrás az internet.