Megosztás a következőn keresztül:


Tárolás HPC energiakörnyezetekhez

A nagy méretű HPC számítási feladatoknak olyan adattárolásra és hozzáférésre van szükség, amely meghaladja a hagyományos felhőalapú fájlrendszerek képességeit.

Az alábbiakban felsoroljuk azokat a tényezőket, amelyeket figyelembe kell vennie, és azonosítania kell az alkalmazáskövetelményt, hogy eldöntse, milyen tárolási megoldást használjon

  • Késleltetés
  • IOPS,
  • Átmenő
  • Fájlméretek és -számok,
  • Feladat futási ideje
  • Költség társítva
  • Affinitás a tárolási helyhez – helyszíni és Azure-beli

Az Azure-ban kiválasztott HPC-tárolót befolyásoló tényezők további megértéséhez tekintse meg a "A HPC-tároló kiválasztását befolyásoló tényezők ismertetése az Azure-ban" című témakört.

Döntési fa adott HPC-tárolórendszer választásához.

A tárolási megoldás kiválasztásakor megfontolandó szempontok döntési fáját bemutató ábra.

A HPC tervezési szempontjai

Az olaj- és gázipari vállalatoknak képesnek kell lenniük arra, hogy hatékonyan kezeljék és tárolják a szeizmikus adatok, a kútadatok, a térképek, a bérletek és egyebek exabájtjait. Az adatok használatához nagy teljesítményű infrastruktúrára van szükségük, amely képes valós idejű elemzéseket feldolgozni és szolgáltatni a termelés optimalizálásához, a környezeti kockázatok csökkentéséhez és a működési biztonság javításához.

Az adattárolásra és a hozzáférésre a számítási feladatok méretétől függően széles körben van szükség. Azure-támogatás számos módszert alkalmaz a HPC-alkalmazások sebességének és kapacitásának kezelésére.

Az energiaiparban a nagy léptékű Batch- és HPC-számítási feladatok olyan adattárolási és hozzáférési igényekkel rendelkeznek, amelyek túllépik a hagyományos felhőalapú fájlrendszerek képességeit. A nagy teljesítményű I/O-követelmények és a nagy teljesítményű számítástechnika (HPC) nagy méretezhetőségi igényei egyedi kihívásokat jelentenek az adattárolás és -hozzáférés terén.

A HPC olyan összetett problémák megoldására szolgál, mint például a szeizmikus és a víztározó szimulációja és modellezése, amelyek nem praktikusak vagy költséghatékonyak a hagyományos számítástechnikai technikákkal való kezeléshez. Ez a párhuzamos feldolgozás és a nagy méretezhetőség kombinációjával teszi lehetővé a nagy és bonyolult számítási feladatok gyors, hatékony és megbízható végrehajtását.

Emellett az Azure HPC-fürtökben a számítási csomópontok olyan virtuális gépek, amelyek szükség szerint felpöröghetnek a fürthöz rendelt feladatok elvégzéséhez. Ezek a csomópontok számítási feladatokat osztanak szét a fürtön, hogy elérjék a hpc-vel kapcsolatos összetett problémák megoldásához szükséges nagy teljesítményű párhuzamos feldolgozást. A számítási csomópontoknak olvasási/írási műveleteket kell végrehajtaniuk a megosztott munkatárhelyen a feladatok végrehajtása során. A csomópontok hozzáférése a tárterülethez az alábbi két forgatókönyv között folyamatos:

  • Több számítási csomópont egyetlen adatkészlete – Ebben a forgatókönyvben egyetlen adatforrás található a hálózaton, amelyhez az összes számítási csomópont hozzáfér a munkaadatokhoz. Bár szerkezetileg egyszerű, az I/O-műveleteket a tárolóhely I/O-kapacitása korlátozza.
  • Számos adatkészlet számos számítási csomóponthoz – Ebben a forgatókönyvben egyetlen adatforrás van a hálózaton, amelyhez az összes számítási csomópont hozzáfér a munkaadatokhoz. Bár szerkezetileg egyszerű, az I/O-műveleteket a tárolóhely I/O-kapacitása korlátozza.

HPC Tervezési Javaslatok

Válassza ki az egyedi I/O- és kapacitáskövetelményeknek leginkább megfelelő megoldást.

Hálózati fájlrendszer (NFS)

Az NFS-t gyakran használják a megosztott tárolóhelyekhez való hozzáférés biztosítására. Az NFS-ben a kiszolgálói virtuális gép megosztja a helyi fájlrendszerét, amely az Azure esetében az Azure Storage-ban üzemeltetett egy vagy több virtuális merevlemezen (VHD) van tárolva. Az ügyfelek ezután csatlakoztathatják a kiszolgáló megosztott fájljait, és közvetlenül elérhetik a megosztott helyet.

A hálózati fájlrendszert (NFS) gyakran használják az összes csomópontra csatlakoztatott otthoni könyvtárakhoz és projekttérhez. Emellett gyakran helyet is biztosíthat az adatokat megosztó kutatócsoportoknak. Általánosságban elmondható, hogy az átviteli sebesség számítási feladatai horizontálisan méretezhetők, és kevés függőség van az egyes tevékenységek között. A feladatütemezők szétosztják a munkát a csomópontok között, és koordinálják a tevékenységet. Az NFS a csomópontok tipikus megosztott tárolója, amely TCP/IP-hálózatokon keresztül érhető el.

Az NFS előnye, hogy könnyen beállítható és karbantartható, és linuxos és Windows operációs rendszereken is támogatott. Több NFS-kiszolgálóval is eloszthatók a tárolók a hálózaton, de az egyes fájlok csak egyetlen kiszolgálón keresztül érhetők el.

Kis léptékű számítási feladatok esetén fontolja meg az NFS futtatását a fő csomóponton, a nagy méretű rövid élettartamú lemezekkel rendelkező, tárolásra optimalizált virtuális gép vagy az Azure Premium Storage-beli D sorozatú virtuális gépek használatával, a követelményektől függően. Ez a megoldás megfelel az 500 magos vagy kisebb számítási feladatoknak.

A HPC-forgatókönyvekben a fájlkiszolgáló gyakran szűk keresztmetszetként szolgálhat, és szabályozhatja az általános teljesítményt. Ha egyetlen NFS-kiszolgálóról próbál hozzáférni a nem gyorsítótárazott adatokhoz a dokumentált virtuális gépek maximális IOPS-értékénél és átviteli sebességénél magasabb sebességgel, az szabályozást eredményez.

Egy olyan forgatókönyvben, amikor több tucat ügyfél próbál meg dolgozni az egyetlen NFS-kiszolgálón tárolt adatokon, ezek a korlátok könnyen elérhetők, ami a teljes alkalmazás teljesítményének romlását okozza. Minél közelebb van a HPC-alkalmazás által használt tiszta egy-a-többhöz forgatókönyvhöz, annál hamarabb fog futni ezekre a korlátozásokra.

Párhuzamos fájlrendszerek az Azure-ban

A párhuzamos fájlrendszerek több hálózati tárolócsomópont között osztják el a blokkszintű tárolást. A fájladatok a csomópontok között oszlanak el, ami azt jelenti, hogy a fájladatok több tárolóeszköz között oszlanak meg. Ez az egyéni tárolási I/O-kéréseket több olyan tárolócsomóponton tárolja, amelyek egy közös névtéren keresztül érhetők el.

A rendszer több tárolóeszközt és több adatelérési útvonalat használ a magas fokú párhuzamosság biztosításához, ami csökkenti a szűk keresztmetszeteket, ha egyszerre csak egyetlen csomóponthoz fér hozzá. A párhuzamos I/O azonban nehezen koordinálható és optimalizálható, ha közvetlenül az API vagy a POSIX I/O interfész szintjén dolgozik. A köztes adatelérési és koordinációs rétegek bevezetésével a párhuzamos fájlrendszerek magas szintű felületet biztosítanak az alkalmazásfejlesztőknek az alkalmazásréteg és az I/O-réteg között.

Az energia MPI számítási feladatok egyedi követelményekkel rendelkeznek, és a csomópontok közötti kis késésű kommunikációra van szükség. A csomópontok nagy sebességű összekapcsoláson keresztül csatlakoznak, és nem oszthatók meg más számítási feladatokkal. Az MPI-alkalmazások a teljes nagy teljesítményű összekapcsolásokat használják átmenő módban virtualizált környezetekben. Az MPI-csomópontok tárolása általában párhuzamos fájlrendszer, például a Lustre, amely a nagy sebességű összekapcsoláson keresztül is elérhető. A Lustre/BeeGFS általában elsősorban a szeizmikus feldolgozás (de a tározószimuláció) nagy átviteli sebességére is szolgál.

A párhuzamos fájlrendszereket, például a Lustre-t olyan HPC energiaterhelésekhez használják, amelyek nagy fájlokhoz való hozzáférést, több számítási csomópont egyidejű elérését és nagy mennyiségű adatot igényelnek. A párhuzamos fájlrendszerek megvalósítása lehetővé teszi a skálázást a képesség és a teljesítmény szempontjából. Az ilyen fájlrendszerek nagy sávszélességgel és csökkentett processzorhasználattal használják ki az RDMA-átvitel előnyeit. A párhuzamos fájlrendszert általában üres területként használják, és optimalizált I/O-t igénylő munkára szolgálnak. Ilyenek például a számítási feladatok beállítása, az előfeldolgozás, a futtatás és az utófeldolgozás.

Egy vezényléses párhuzamos fájlszolgáltatás, például az Azure Managed Lustre használata 50 000 vagy több magon működik, 500 GB/s olvasási/írási sebességgel és 2,5 PB-tárterülettel.

További információ az Azure-beli párhuzamos virtuális fájlrendszerekről: Párhuzamos virtuális fájlrendszerek a Microsoft Azure-ban – 1. rész: Áttekintés – Microsoft Tech Community.

  • Az Azure NetApp Files és a helyi lemezek általában a nagyobb késés/IOPS-érzékeny számítási feladatok kezelésére szolgálnak, például a szeizmikus értelmezésre, a modell előkészítésére és a vizualizációra. Fontolja meg a legfeljebb 4000 magos számítási feladatok használatát, akár 6,5 GiB/s átviteli sebességgel, valamint olyan számítási feladatokkal, amelyek többprotocol (NFS/SMB) hozzáférését élvezik ugyanahhoz az adatkészlethez.
  • Az Azure Managed Lustre gyorsabb és nagyobb kapacitást biztosít a HPC számítási feladatai számára. Ez a megoldás közepes és nagyon nagy számítási feladatokhoz használható, és 50 000 vagy több magot támogat, akár 500 GB/s átviteli sebességgel, és akár 2,5 PiB tárolókapacitással.
  • A Standard vagy a Premium Blob költséghatékony, mivel a legalacsonyabb költségű felhőajánlat. Ez a szolgáltatás exabájtos skálázást, nagy átviteli sebességet, kis késésű hozzáférést biztosít, ahol szükséges, jól ismert fájlrendszert és többprotokollos hozzáférést (REST, HDFS, NFS). A blobszolgáltatás végpontján használhatja az NFS 3.0-s verziójának használatát a magas átviteli sebességhez és a nagy számítási feladatok olvasásához. A költségeket úgy optimalizálhatja, hogy a hűvösebb szintekre lép, és lehetővé teszi az életciklus-felügyelet elvégzését a legutóbbi frissítéssel/ legutóbbi hozzáférési idővel, intelligens rétegzést testre szabható szabályzatokkal.
  • Az olaj- és gázenergia-számítási feladatok nagy adatméretet és kötetátviteli mechanizmust igényelhetnek a helyszíniről a felhőbe, és fordítva, amelyet a
    • Offline – eszközalapú migrálás (DataBox)
    • Online – a hálózaton (ExpressRoute) alapuló migrálás.

Következő lépések

Az alábbi cikkekből megtudhatja, hogy a felhőbevezetési folyamat egyes pontjain található útmutatás segít-e sikeres lenni az energia HPC-környezetek felhőbevezetési forgatókönyvében.