Architektura SAS v Azure

Azure Virtual Machines
Azure Virtual Network

Toto řešení spouští analytické úlohy SAS v Azure. Pokyny se týkají různých scénářů nasazení. K dispozici je například několik verzí SAS. Software SAS můžete spustit na virtuálních počítačích spravovaných vlastním systémem. Verze založené na kontejnerech můžete nasadit také pomocí služby Azure Kubernetes Service (AKS).

Architektura

Architecture diagram showing how to deploy SAS products on Azure.

Diagram obsahuje velký obdélník s popiskem Azure Virtual Network. V něm má další velký obdélník skupinu umístění bezkontaktní komunikace. Uvnitř jsou dva obdélníky. Jsou skládané svisle a každý z nich má skupinu zabezpečení sítě. Každý obdélník skupiny zabezpečení obsahuje několik ikon počítačů, které jsou uspořádány v řádcích. V horním obdélníku mají ikony počítačů na levé straně horního řádku popisek Střední úroveň. Ikony na pravé straně mají vrstvu metadat popisku. Dolní řádek ikon má úroveň Compute. V dolním obdélníku má horní řádek ikon počítačů popisek MGS a servery MDS. Dolní řádek obsahuje popisky OST a servery operačního systému.

Stáhněte si soubor aplikace Visio s touto architekturou.

Workflow

Nasazení SAS v Azure obvykle obsahují tři vrstvy:

  • Rozhraní API nebo úroveň vizualizace. V této vrstvě:

    • Vrstva metadat poskytuje klientským aplikacím přístup k metadatům ve zdrojích dat, prostředcích, serverech a uživatelích.
    • Webové aplikace poskytují přístup k inteligentním datům v střední vrstvě.
  • Výpočetní platforma, kde servery SAS zpracovávají data.

  • Úroveň úložiště, kterou SAS používá pro trvalé úložiště. Oblíbené volby v Azure jsou:

    • Lesk
    • IBM Spectrum Scale
    • Systém souborů NFS (Network File System)

Služba Azure Virtual Network izoluje systém v cloudu. V této síti:

  • Skupina umístění bezkontaktní komunikace snižuje latenci mezi virtuálními počítači.
  • Skupiny zabezpečení sítě chrání prostředky SAS před nežádoucím provozem.

Požadavky

Před nasazením úlohy SAS se ujistěte, že jsou splněné následující komponenty:

  • Doporučení k určení velikosti od týmu určení velikosti SAS
  • Soubor licence SAS
  • Přístup ke skupině prostředků pro nasazení prostředků
  • Kvóta předplatného virtuálního centrálního procesoru (vCPU), která bere v úvahu váš dokument velikosti a volbu virtuálního počítače
  • Přístup k zabezpečenému serveru LDAP (Lightweight Directory Access Protocol)

Podrobnosti scénáře

Spolu s diskuzí o různých implementacích je tato příručka také v souladu s architekturami Dobře navržená architekturou Microsoft Azure pro dosažení efektivity v oblastech nákladů, DevOps, odolnosti, škálovatelnosti a zabezpečení. Kromě použití této příručky se s týmem SAS obraťte na další ověření konkrétního případu použití.

Jako partneři pracují Microsoft a SAS na vývoji plánu pro organizace, které inovují v cloudu. Obě společnosti se zavázaly zajistit vysoce kvalitní nasazení produktů a řešení SAS v Azure.

Úvod do SAS

Analytický software SAS poskytuje sadu služeb a nástrojů pro kreslení přehledů z dat a inteligentních rozhodnutí. Platformy SAS plně podporují svá řešení pro oblasti, jako je správa dat, detekce podvodů, analýza rizik a vizualizace. SAS nabízí tyto primární platformy, které Microsoft ověřil:

  • Mřížka SAS 9.4
  • SAS Viya

Byly testovány následující architektury:

  • SAS Grid 9.4 v Linuxu
  • Základ SAS 9
  • SAS Viya 3.5 se symetrickým multiprocesingem (SMP) a architekturou MPP (Massively Parallel Processing) v Linuxu
  • SAS Viya 2020 a novější s architekturou MPP v AKS

Tato příručka obsahuje obecné informace pro spouštění SAS v Azure, nikoli informace specifické pro platformu. Tyto pokyny předpokládají, že hostujete vlastní řešení SAS v Azure ve vlastním tenantovi. SAS pro vás hostuje řešení v Azure. Další informace o službách hostování a správy Azure, které SAS poskytuje, najdete v tématu Služby spravovaných aplikací SAS.

Doporučení

Při návrhu implementace zvažte body v následujících částech.

Dokumentace k SAS poskytuje požadavky na jádro, což znamená fyzické jádro procesoru. Azure ale poskytuje výpisy virtuálních procesorů. Na virtuálních počítačích, které doporučujeme použít s SAS, existují dva virtuální procesory pro každé fyzické jádro. V důsledku toho k výpočtu hodnoty požadavku vCPU použijte polovinu základní hodnoty požadavku. Například fyzický požadavek na jádro 150 MB/s se přeloží na 75 MB/s na vCPU. Další informace o výkonu výpočetních prostředků Azure najdete v tématu Výpočetní jednotka Azure (ACU).

Poznámka:

Pokud vertikálně navyšujete a zachováváte data v nasazení SAS s jedním uzlem (a ne do externího systému souborů), doporučuje dokumentace SAS šířku pásma alespoň 150 MB/s. K dosažení této šířky pásma je potřeba prokládání několika disků P30 Premium (nebo větších).

Operační systémy

Linux funguje nejlépe pro spouštění úloh SAS. SAS podporuje 64bitové verze následujících operačních systémů:

  • Red Hat 7 nebo novější
  • SUSE Linux Enterprise Server (SLES) 12.2
  • Oracle Linux 6 nebo novější

Další informace o konkrétních verzích SAS najdete v matici podpory operačního systému SAS. V prostředích, která používají více počítačů, je nejlepší spustit stejnou verzi Linuxu na všech počítačích. Azure nepodporuje 32bitová nasazení Linuxu.

Pokud chcete optimalizovat kompatibilitu a integraci s Azure, začněte s imagí operačního systému z Azure Marketplace. Pokud používáte vlastní image bez dalších konfigurací, může snížit výkon SAS.

Problémy s jádrem

Při výběru operačního systému mějte na paměti problém s měkkým uzamčením, který má vliv na celou řadu Red Hat 7.x. Vyskytuje se v těchto jádrech:

  • Jádra Linuxu 3.x
  • Verze starší než 4.4

Problém se správou paměti a vstupně-výstupních operací v Linuxu a Hyper-V způsobuje problém. Když se objeví, systémové protokoly obsahují položky, jako je tato, která zmíní nemaskovatelné přerušení (NMI):

Message from syslogd@ronieuwe-sas-e48-2 at Sep 13 08:26:08
kernel:NMI watchdog: BUG: soft lockup - CPU#12 stuck for 22s! [swapper/12:0]

Další problém se týká starších verzí Red Hatu. Konkrétně k tomu může dojít ve verzích, které splňují tyto podmínky:

  • Mají linuxová jádra, která předchází verzi 3.10.0-957.27.2
  • Použití jednotek NVMe (Non-Volatile Memory Express)

Když systém zaznamená vysoké zatížení paměti, obecný ovladač NVMe pro Linux nemusí přidělit dostatečnou paměť pro operaci zápisu. V důsledku toho systém hlásí měkký zámek, který vychází ze skutečného zablokování.

Upgradujte jádro, abyste se vyhnuli oběma problémům. Případně zkuste toto možné alternativní řešení:

  • Nastavte /sys/block/nvme0n1/queue/max_sectors_kb místo 128 výchozí hodnoty 512.
  • Toto nastavení změňte na každém zařízení NVMe ve virtuálním počítači a na každém spuštění virtuálního počítače.

Spuštěním těchto příkazů upravte toto nastavení:

# cat /sys/block/nvme0n1/queue/max_sectors_kb
512
# echo 128 >/sys/block/nvme0n1/queue/max_sectors_kb
# cat /sys/block/nvme0n1/queue/max_sectors_kb
128

Doporučení pro změnu velikosti virtuálních počítačů

Nasazení SAS často používají následující skladové položky virtuálních počítačů:

Řada Esv5

Virtuální počítače v řadě Edsv5 jsou výchozími počítači SAS pro Viya a Grid. Nabízejí tyto funkce:

  • Omezená jádra. U mnoha počítačů v této řadě můžete omezit počet virtuálních procesorů virtuálního počítače.
  • Dobrý poměr procesoru k paměti.
  • Místně připojený disk s vysokou propustností. Rychlost vstupně-výstupních operací je důležitá pro složky, jako SASWORK je mezipaměť CAS_CACHECAS (Cloud Analytics Services), kterou SAS používá pro dočasné soubory.

Pokud virtuální počítače Edsv5-series nejsou k dispozici, doporučujeme použít předchozí generaci. Virtuální počítače Edsv4-series byly testovány a dobře fungují s úlohami SAS.

Řada Ebsv5

V některých případech nemá místně připojený disk dostatek místa na úložišti nebo SASWORKCAS_CACHE. Pokud chcete získat větší pracovní adresář, použijte řadu Ebsv5 virtuálních počítačů s připojenými disky Úrovně Premium. Tyto virtuální počítače nabízejí tyto funkce:

  • Stejné specifikace jako virtuální počítače Edsv5 a Esv5
  • Vysoká propustnost vůči vzdálenému připojenému disku, až 4 GB/s a poskytuje vám tak velkou SASWORK nebo CAS_CACHE podle potřeby v případě vstupně-výstupních požadavků SAS.

Pokud virtuální počítače Edsv5-series nabízejí dostatek úložiště, je lepší je použít, protože jsou nákladově efektivnější.

Řada M

Mnoho úloh používá virtuální počítače řady M,včetně:

  • Implementace prostředí SPRE (SAS Programming Runtime Environment), které používají přístup Viya k architektuře softwaru.
  • Určité úlohy SAS Gridu

Virtuální počítače řady M nabízejí tyto funkce:

  • Omezená jádra
  • Až 3,8 TiB paměti, které jsou vhodné pro úlohy, které používají velké množství paměti
  • Vysoká propustnost pro vzdálené disky, která funguje dobře pro SASWORK složku, pokud je místně dostupný disk nedostatečný

Řada Ls

Některá prostředí s velkými vstupně-výstupními operacemi by měla používat virtuální počítače řady Lsv2 nebo Lsv3.řady . Konkrétně implementace, které vyžadují rychlou, nízkou latenci vstupně-výstupní rychlost a velký objem paměti z tohoto typu počítače. Mezi příklady patří systémy, které využívají velkou část SASWORK složky nebo CAS_CACHE.

Poznámka:

SAS optimalizuje své služby pro použití s knihovnou Intel Math Kernel Library (MKL).

  • U úloh náročných na matematiku se vyhněte virtuálním počítačům, které nepoužívají procesory Intel: Lsv2 a Lasv3.
  • Při výběru procesoru AMD ověřte, jak s ním MKL funguje.

Upozorňující

Pokud je to možné, vyhněte se používání virtuálních počítačů Lsv2. Místo toho používejte virtuální počítače Lsv3 s čipovými sadami Intel.

S Azure můžete škálovat systémy SAS Viya na vyžádání, abyste splnili konečné termíny:

  • Zvýšením výpočetní kapacity fondu uzlů.
  • Pomocí automatického škálování clusteru AKS můžete přidávat uzly a škálovat horizontálně.
  • Dočasným vertikálním navýšením kapacity infrastruktury urychlíte úlohu SAS.

Poznámka:

Při škálování výpočetních komponent zvažte také vertikální navýšení kapacity úložiště, abyste se vyhnuli kritickým bodům vstupně-výstupních operací úložiště.

V případě úloh Viya 3.5 a Grid v současné době Azure nepodporuje horizontální ani vertikální škálování. Viya 2022 podporuje horizontální škálování.

Důležité informace o umístění sítí a virtuálních počítačů

Úlohy SAS jsou často chatty. V důsledku toho můžou přenášet značné množství dat. U všech platforem SAS postupujte podle těchto doporučení, abyste snížili účinky chatteru:

  • Nasaďte platformy SAS a úložiště ve stejné virtuální síti. Tento přístup také zabraňuje vzniku nákladů na partnerský vztah.
  • Umístěte počítače SAS do skupiny umístění bezkontaktní komunikace, abyste snížili latenci mezi uzly.
  • Pokud je to možné, nasaďte počítače SAS a platformy úložiště dat založené na virtuálních počítačích ve stejné skupině umístění bezkontaktní komunikace.
  • Nasaďte zařízení SAS a úložiště ve stejné zóně dostupnosti, abyste se vyhnuli latenci napříč zónami. Pokud nemůžete potvrdit, že jsou komponenty řešení nasazené ve stejné zóně, kontaktujte podpora Azure.

SAS má specifické požadavky na plně kvalifikovaný název domény (FQDN) pro virtuální počítače. Správně nastavte plně kvalifikované názvy domén počítače a ujistěte se, že fungují služby DNS (Domain Name System). Názvy můžete nastavit pomocí Azure DNS. Soubor můžete také upravit hosts v etc konfigurační složce.

Poznámka:

Zapněte akcelerované síťové služby na všech uzlech v nasazení SAS. Když tuto funkci vypnete, výkon výrazně trpí.

Chcete-li zapnout akcelerované síťové služby na virtuálním počítači, postupujte takto:

  1. Spuštěním tohoto příkazu v Azure CLI uvolněte virtuální počítač:

    az vm deallocate --resource-group <resource_group_name> --name <VM_name>

  2. Vypněte virtuální počítač.

  3. Spusťte tento příkaz v rozhraní příkazového řádku:

    az network nic update -n <network_interface_name> -g <resource_group_name> --accelerated-networking true

Při migraci dat nebo interakci se SAS v Azure doporučujeme použít jedno z těchto řešení pro připojení místních prostředků k Azure:

Pro produkční úlohy SAS v Azure poskytuje ExpressRoute privátní, vyhrazené a spolehlivé připojení, které nabízí tyto výhody oproti síti VPN typu site-to-site:

  • Vyšší rychlost
  • Nižší latence
  • Přísnější zabezpečení

Mějte na paměti rozhraní citlivá na latenci mezi sas a aplikacemi bez SAS. Zvažte přesun zdrojů dat a jímek blízko SAS.

Správa identit

Platformy SAS můžou používat místní uživatelské účty. K ověření uživatelů můžou použít také zabezpečený server LDAP. Doporučujeme spustit řadič domény v Azure. Pak pomocí funkce připojení k doméně správně spravujte přístup k zabezpečení. Pokud jste nenastavili řadiče domény, zvažte nasazení služby Microsoft Entra Domain Services (Microsoft Entra Domain Services). Pokud používáte funkci připojení k doméně, ujistěte se, že názvy počítačů nepřekročí limit 15 znaků.

Poznámka:

V některých prostředích existuje požadavek na místní připojení nebo sdílené datové sady mezi místním prostředím a prostředím SAS hostovanými v Azure. V těchto situacích důrazně doporučujeme nasadit řadič domény v Azure.

Doménová struktura služby Microsoft Entra Domain Services vytváří uživatele, kteří se můžou ověřovat na zařízeních Microsoft Entra, ale ne na místních prostředcích a naopak.

Zdroje dat

Řešení SAS často přistupuje k datům z více systémů. Tyto zdroje dat spadají do dvou kategorií:

  • Datové sady SAS, které SAS ukládá do SASDATA složky
  • Databáze, které SAS často zatěžují

Pokud chcete zajistit nejvyšší výkon:

  • Umístěte zdroje dat co nejblíže infrastruktuře SAS.
  • Omezte počet segmentů směrování sítě a zařízení mezi zdroji dat a infrastrukturou SAS.

Poznámka:

Pokud nemůžete přesunout zdroje dat blízko infrastruktury SAS, vyhněte se spouštění analýz. Místo toho nejprve spusťte procesy extrakce, transformace, načítání (ETL) a analyzujte je později. U zdrojů dat, které jsou pod stresem, použijte stejný přístup.

Trvalé vzdálené úložiště pro data SAS

SAS a Microsoft otestovali řadu datových platforem, které můžete použít k hostování datových sad SAS. Blogy SAS podrobně dokumentují výsledky, včetně charakteristik výkonu. Testy zahrnují následující platformy:

SAS nabízí skripty pro testování výkonu pro architektury Viya a Grid. Fóra SAS poskytují dokumentaci k testům se skripty na těchto platformách.

Sycomp Storage poháněné škálováním IBM Spectrum Scale (GPFS)

Informace o tom, jak Sycomp Storage fueled by IBM Spectrum Scale splňuje očekávání výkonu, najdete v tématu Kontrola SAS pro Sycomp pro SAS Grid.

Pro určení velikosti provede Sycomp následující doporučení:

  • Poskytněte jeden uzel škálování GPFS na osm jader s konfigurací 150 MB/s na jádro.
  • Pro každou instanci použijte minimálně pět jednotek P30.
DDN EXAScaler Cloud (Lustre)

Společnost DDN, která získala společnost Intel Lustre business, poskytuje EXAScaler Cloud, který je založený na paralelním systému souborů Lustre. Řešení je k dispozici na Azure Marketplace jako součást cloudového deštníku DDN EXAScaler. Navržené pro nasazení náročné na data poskytuje vysokou propustnost s nízkými náklady.

Testy ukazují, že DDN EXAScaler může paralelně spouštět úlohy SAS. DDN doporučuje spuštění tohoto příkazu na všech klientských uzlech při nasazování EXAScaler nebo Lustre:

lctl set_param mdc.*.max_rpcs_in_flight=128 osc.*.max_pages_per_rpc=16M osc.*.max_rpcs_in_flight=16 osc.*.max_dirty_mb=1024 llite.*.max_read_ahead_mb=2048 osc.*.checksums=0  llite.*.max_read_ahead_per_file_mb=256
Azure NetApp Files (NFS)

Testy SAS ověřily výkon NetApp pro SAS Grid. Konkrétně testování ukazuje, že Azure NetApp Files je realizovatelná primární možnost úložiště pro clustery SAS Grid s až 32 fyzickými jádry na více počítačích. Když se použijí optimalizace a funkce Linuxu, může být Azure NetApp Files primární možností pro clustery s až 48 fyzickými jádry na více počítačích.

Při používání této služby zvažte následující body:

  • Azure NetApp Files dobře funguje s nasazeními Viya. Nepoužívejte Azure NetApp Files pro mezipaměť CAS v Viya, protože propustnost zápisu je nedostatečná. Pokud je to možné, použijte místo toho místní dočasný disk virtuálního počítače.
  • V základu SAS 9 s Gridem 9.4 je výkon služby Azure NetApp Files se SAS pro SASDATA soubory vhodný pro clustery s až 32 fyzickými jádry. Při ladění se tím dosáhne až 48 jader.
  • Pokud chcete zajistit dobrý výkon, při nasazování služby Azure NetApp Files vyberte alespoň úroveň služby úrovně úložiště Premium nebo Ultra. Pro velmi velké svazky můžete zvolit úroveň služby Standard. Zvažte možnost začít s úrovní Premium a později přepnout na Úroveň Ultra nebo Standard. Změny na úrovni služeb je možné provádět online bez přerušení nebo migrace dat.
  • Výkon čtení a zápisu se pro Azure NetApp Files liší . Propustnost zápisu pro SAS dosáhne limitů přibližně na 1600 Mb/s, zatímco propustnost čtení překračuje limit přibližně 4500 Mb/s. Pokud potřebujete nepřetržitou vysokou propustnost zápisu, nemusí být služba Azure NetApp Files vhodná.

Jiné zdroje dat

Platformy SAS podporují různé zdroje dat:

Důležité informace

Tyto aspekty implementují pilíře dobře architektuře Azure, což je sada hlavních principů, které je možné použít ke zlepšení kvality úlohy. Další informace naleznete v tématu Microsoft Azure Well-Architected Framework.

Zabezpečení

Zabezpečení poskytuje záruky proti záměrným útokům a zneužití cenných dat a systémů. Další informace najdete v tématu Přehled pilíře zabezpečení.

Výstupem úloh SAS může být jeden z důležitých prostředků vaší organizace. Výstup SAS poskytuje přehled o interní efektivitě a může hrát důležitou roli ve strategii vytváření sestav. Pak je důležité zabezpečit přístup k architektuře SAS. K dosažení tohoto cíle použijte zabezpečené ověřování a vyřešte ohrožení zabezpečení sítě. Pomocí šifrování můžete chránit všechna data, která se přesouvají do vaší architektury i mimo vaši architekturu.

Azure poskytuje SAS pomocí cloudového modelu IaaS (infrastruktura jako služba). Microsoft do služby sestaví ochranu zabezpečení na následujících úrovních:

  • Fyzické datové centrum
  • Fyzická síť
  • Fyzický hostitel
  • Hypervisor

Pečlivě vyhodnoťte služby a technologie, které vyberete pro oblasti nad hypervisorem, jako je hostovaný operační systém sas. Ujistěte se, že pro vaši architekturu poskytuje správné bezpečnostní prvky.

SAS v současné době plně nepodporuje ID Microsoft Entra. Pro ověřování ve vrstvě vizualizace pro SAS můžete použít ID Microsoft Entra. Pro back-endovou autorizaci ale použijte strategii, která se podobá místnímu ověřování. Při správě prostředků IaaS můžete k ověřování a autorizaci na webu Azure Portal použít ID Microsoft Entra. Při používání služby Microsoft Entra Domain Services nemůžete ověřovat účty hostů. Pokusy o přihlášení hosta selžou.

Pomocí skupin zabezpečení sítě můžete filtrovat síťový provoz do a z prostředků ve vaší virtuální síti. Pomocí těchto skupin můžete definovat pravidla, která udělují nebo zakazují přístup ke službám SAS. Příkladem může být:

  • Udělení přístupu k pracovním portům CAS z místních rozsahů IP adres
  • Blokování přístupu ke službám SAS z internetu

Azure Disk Encryption můžete použít k šifrování v rámci operačního systému. Toto řešení používá funkci DM-Crypt linuxu. V současné době ale nedoporučujeme používat Službu Azure Disk Encryption. Může výrazně snížit výkon, zejména pokud používáte SASWORK soubory místně.

Šifrování na straně serveru (SSE) služby Azure Disk Storage chrání vaše data. Pomůže vám také splnit závazky organizace týkající se zabezpečení a dodržování předpisů. S využitím spravovaných disků Azure SSE šifruje neaktivní uložená data při zachování do cloudu. Toto chování se ve výchozím nastavení vztahuje jak na disky operačního systému, tak na datové disky. Ke šifrování spravovaného disku můžete použít klíče spravované platformou nebo vlastní klíče.

Ochrana infrastruktury

Řiďte přístup ke zdrojům Azure, které nasazujete. Každé předplatné Azure má vztah důvěryhodnosti s tenantem Microsoft Entra. Použijte řízení přístupu na základě role v Azure (Azure RBAC), abyste uživatelům udělili v rámci své organizace správná oprávnění k prostředkům Azure. Přístup udělíte tak, že uživatelům nebo skupinám přiřadíte role RBAC v určitém rozsahu. Rozsahem může být předplatné, skupina prostředků nebo jediný prostředek. Nezapomeňte auditovat všechny změny infrastruktury.

Správa vzdáleného přístupu k virtuálním počítačům prostřednictvím služby Azure Bastion Nezpřístupňujte žádné z těchto komponent na internetu:

  • Virtuální počítače
  • Porty protokolu SSH (Secure Shell Protocol)
  • Porty protokolu RDP (Remote Desktop Protocol)

Nasazení tohoto scénáře

Nejlepší je nasadit úlohy pomocí procesu infrastruktury jako kódu (IaC). Úlohy SAS můžou být citlivé na chybné konfigurace, ke kterým často dochází v ručních nasazeních a snižují produktivitu.

Při vytváření prostředí si prohlédněte referenční materiály k rychlému startu v CoreCompete SAS 9 nebo Viya v Azure.

Přispěvatelé

Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.

Hlavní autoři:

Další přispěvatel:

Pokud chcete zobrazit neveřejné profily LinkedIn, přihlaste se na LinkedIn.

Další kroky

Nápovědu k zahájení práce najdete v následujících zdrojích informací:

Nápovědu k procesu automatizace najdete v následujících šablonách, které SAS poskytuje: