Megosztás a következőn keresztül:


Az Azure Adattudomány virtuális géppel kapcsolatos problémák elhárítása

Ez a cikk az Azure Adattudomány virtuális gép használatakor előforduló hibák vagy hibák megkeresését és kijavítását ismerteti.

Ubuntu

GPU javítása NVIDIA A100 GPU Chipen – Azure NDasrv4 sorozat

Az ND A100 v4 sorozatú virtuális gép az Azure GPU-család egyik zászlóshajója. Kezeli a high-end Deep Tanulás betanítást, valamint a szorosan összekapcsolt, vertikális felskálázott és a HPC számítási feladatok vertikális felskálázását.

Egyedi architektúrája miatt a nagy igényű számítási feladatokhoz eltérő beállításra van szüksége, hogy kihasználhassa a GPU-gyorsítás előnyeit TensorFlow- vagy PyTorch-keretrendszerek használatával.

Az ND A100 gépek GPU-jainak beépített támogatását építjük ki. Eközben a GPU képes kezelni az Ubuntu-t, ha hozzáadja az NVIDIA Fabric Managert, és frissíti az illesztőprogramokat. Kövesse az alábbi lépéseket a terminálon:

  1. Az NVIDIA-adattár hozzáadása illesztőprogramok telepítéséhez vagy frissítéséhez – részletes útmutatást talál az erőforrásban

  2. [NEM KÖTELEZŐ] A CUDA-illesztőprogramokat az adattárból is frissítheti

  3. Telepítse az NVIDIA Fabric Manager illesztőprogramjait:

    sudo apt-get install cuda-drivers-460
    sudo apt-get install cuda-drivers-fabricmanager-460
    
  4. Indítsa újra a virtuális gépet (az illesztőprogramok előkészítése érdekében)

  5. Engedélyezze és indítsa el az újonnan telepített NVIDIA Fabric Manager szolgáltatást:

    sudo systemctl enable nvidia-fabricmanager
    sudo systemctl start nvidia-fabricmanager
    

Futtassa ezt a kódmintát annak ellenőrzéséhez, hogy a GPU és az illesztőprogramok működnek-e:

systemctl status nvidia-fabricmanager.service

Az alábbi képernyőképen a Fabric Manager szolgáltatás fut:

A Fabric Manager szolgáltatás futását bemutató képernyőkép.

az asztali környezetbe való Csatlakozás álás meghiúsul

Ha SSH-terminálon keresztül tud csatlakozni a DSVM-hez, de x2go-n keresztül nem tud csatlakozni, előfordulhat, hogy az x2go nem megfelelő munkamenettípus-beállítással rendelkezik. A DSVM asztali környezethez való csatlakozáshoz állítsa a munkamenet típusát x2go/munkamenet-beállítások/munkamenet XFCE értékre. Más asztali környezetek jelenleg nem támogatottak.

A betűtípusok hibásnak tűnnek, amikor x2go használatával csatlakozik a DSVM-hez

Egy adott x2go-munkamenet-beállítás az x2go-hoz való csatlakozáskor egyes betűtípusok helytelen megjelenését okozhatja. Mielőtt csatlakozik a DSVM-hez, törölje a jelet a munkamenet beállításai párbeszédpanel "Bemenet/kimenet" lapján lévő "DPI megjelenítése" jelölőnégyzetből.

Ismeretlen jelszó kérése

A DSVM-hitelesítés típusbeállítását SSH nyilvános kulcsra állíthatja. Ez a jelszóhitelesítés helyett ajánlott. SSH nyilvános kulcs használata esetén nem kap jelszót. Bizonyos esetekben azonban egyes alkalmazások továbbra is jelszót kérnek. Futtassa sudo passwd <user_name> egy új jelszó létrehozását egy adott felhasználó számára. Ezzel sudo passwdlétrehozhat egy új jelszót a gyökérfelhasználó számára.

A parancs futtatása nem változtatja meg az SSH-konfigurációt, és az engedélyezett bejelentkezési mechanizmusok változatlanok maradnak.

Jelszó kérése a sudo parancs futtatásakor

Amikor parancsot futtat egy sudo Ubuntu-gépen, előfordulhat, hogy a jelszó ismételt megadására irányuló kérést kap annak ellenőrzéséhez, hogy Ön a bejelentkezett felhasználó. Ez az alapértelmezett Ubuntu-viselkedés. Bizonyos helyzetekben azonban az ismétlődő hitelesítés nem szükséges, és meglehetősen bosszantó.

A legtöbb esetben az újrahitelesítés letiltásához futtassa ezt a parancsot egy terminálban:

echo -e "\n$USER ALL=(ALL) NOPASSWD: ALL\n" | sudo tee -a /etc/sudoers

A terminál újraindítása után a sudo nem kér újabb bejelentkezést, és elegendőnek fogja tekinteni a munkamenet-bejelentkezésből származó hitelesítést.

Nem használható a Docker nemroot felhasználóként

Ha a dockert nemroot felhasználóként szeretné használni, a felhasználónak tagságra van szüksége a Docker-csoportban. A getent group docker parancs az adott csoporthoz tartozó felhasználók listáját adja vissza. Ha hozzá szeretné adni a felhasználót a docker-csoporthoz, futtassa a következőt sudo usermod -aG docker $USER: .

A Docker-tárolók nem tudnak a hálózaton keresztül kommunikálni a külsővel

A Docker alapértelmezés szerint új tárolókat ad hozzá az úgynevezett "hídhálózathoz": 172.17.0.0/16. A hídhálózat alhálózata átfedésben lehet a DSVM alhálózatával vagy az előfizetésében található másik privát alhálózattal. Ebben az esetben nincs lehetőség hálózati kommunikációra a gazdagép és a tároló között. Emellett a tárolóban futó webalkalmazások nem érhetőek el, és a tároló nem tudja frissíteni a csomagokat az apt-ből.

A probléma megoldásához újra kell konfigurálnia a Dockert, hogy olyan IP-címteret használjon a hídhálózatához, amely nem fedi át az előfizetés más hálózatait. Ha például hozzáadja a

"default-address-pools": [
        {
            "base": "10.255.248.0/21",
            "size": 21
        }
    ]

A JSON-fájlhoz a /etc/docker/daemon.json Docker egy másik alhálózatot rendel a hídhálózathoz. A fájlt sudo-val kell szerkesztenie, például futtatva sudo nano /etc/docker/daemon.json.

A módosítás után futtassa service docker restart újra a Docker szolgáltatást. Annak megállapításához, hogy a módosítások érvénybe léptek-e, futtatható-e docker network inspect bridge. Az IPAM alatti érték. A Config.Alhálózatnak meg kell felelnie a korábban megadott címkészletnek.

A GPU(k) nem érhetők el a Docker-tárolóban

A DSVM-en telepített Docker-erőforrás alapértelmezés szerint támogatja a GPU-kat. Ez a támogatás azonban bizonyos előfeltételeket igényel.

  • A DSVM virtuálisgép-méretének tartalmaznia kell legalább egy GPU-t.
  • Amikor elindítja a Docker-tárolót docker run, hozzá kell adnia egy --gpus paramétert: például --gpus all.
  • Az NVIDIA A100 GPU-kat tartalmazó virtuálisgép-méretekhez más szoftvercsomagokat is telepíteni kell, különösen az NVIDIA Fabric Managert. Előfordulhat, hogy ezek a csomagok nincsenek előre telepítve a rendszerképben.

Windows

A 2. generációs virtuális gép (Gen 2) nem működik

Amikor Adattudomány virtuális gépet próbál létrehozni a 2. generációs (Gen 2) virtuális gép alapján, az sikertelen lesz.

Jelenleg a Windows 2019 Serveren alapuló Adattudomány virtuális gépekhez (DSVM-ekhez) biztosítunk lemezképeket, csak az 1. generációs DSVM-ekhez. A Gen 2 még nem támogatott, de a közeljövőben tervezzük támogatni őket.

Az SQL Server elérése

Amikor megpróbál csatlakozni az előre telepített SQL Server-példányhoz, "sikertelen bejelentkezés" hibaüzenet jelenhet meg. Az SQL Server-példányhoz való sikeres csatlakozáshoz rendszergazdai módban kell futtatnia azt a programot, amelyhez csatlakozni szeretne – például AZ SQL Server Management Studio (SSMS). A rendszergazdai módra azért van szükség, mert a DSVM alapértelmezett viselkedése szerint csak a rendszergazdák tudnak csatlakozni.

A Hyper-V nem működik

A várt viselkedésnek megfelelően a Hyper-V kezdetben nem működik Windows rendszeren. A legjobb teljesítmény érdekében letiltottunk néhány szolgáltatást. A Hyper-V engedélyezése:

  1. Nyissa meg a keresősávot a Windows DSVM-en
  2. Írja be a "Szolgáltatások" kifejezést.
  3. Az összes Hyper-V szolgáltatás beállítása "Manuális" értékre
  4. Állítsa a "Hyper-V virtuális gép kezelése" értéket "Automatikus" értékre

Az utolsó képernyőnek így kell kinéznie:

Képernyőkép a Hyper-V szolgáltatás futtatásáról.