Välj en stordatalagringsteknik i Azure
I den här artikeln jämförs alternativ för datalagring för stordatalösningar – särskilt datalagring för massdatainmatning och batchbearbetning, i motsats till analytiska datalager eller direktuppspelning i realtid.
Vilka alternativ har du när du väljer datalagring i Azure?
Det finns flera alternativ för att mata in data i Azure, beroende på dina behov.
Enhetlig logisk datasjö:
Fillagring:
NoSQL-databaser:
Analysdatabaser:
OneLake i infrastrukturresurser
OneLake i Fabric är en enhetlig och logisk datasjö som är skräddarsydd för hela organisationen. Den fungerar som central hubb för alla analysdata och ingår i varje Microsoft Fabric-klientorganisation. OneLake i Fabric bygger på grunden för Data Lake Storage Gen2.
OneLake i Infrastruktur:
- Stöder strukturerade och ostrukturerade filtyper.
- Lagrar alla tabelldata i Delta Parquet-format.
- Tillhandahåller en enda datasjö inom klientorganisationens gränser som styrs som standard.
- Stöder skapandet av arbetsytor i en klientorganisation så att en organisation kan distribuera ägarskaps- och åtkomstprinciper.
- Stöder skapandet av olika dataobjekt, till exempel sjöhus och lager, som du kan komma åt data från.
OneLake i Fabric fungerar som den gemensamma lagringsplatsen för inmatning, transformering, insikter i realtid och business intelligence-visualiseringar. Den centraliserar olika Infrastrukturresurser-tjänster och lagrar dataobjekt som alla arbetsbelastningar använder i Infrastrukturresurser. Information om hur du väljer rätt datalager för dina Infrastruktur-arbetsbelastningar finns i Beslutsguide för infrastrukturresurser: välj ett datalager.
Azure Storage-blobar
Azure Storage är en hanterad lagringstjänst som är mycket tillgänglig, säker, hållbar, skalbar och redundant. Microsoft tar hand om underhåll och hanterar kritiska problem åt dig. Azure Storage är den mest allestädes närvarande lagringslösningen som Azure tillhandahåller på grund av antalet tjänster och verktyg som kan användas med den.
Det finns olika Azure Storage-tjänster som du kan använda för att lagra data. Det mest flexibla alternativet för att lagra blobar från många datakällor är Blob Storage. Blobar är i princip filer. De lagrar bilder, dokument, HTML-filer, virtuella hårddiskar (VHD), stordata som loggar, databassäkerhetskopior – i stort sett vad som helst. Blobar lagras i containrar som liknar mappar. En container tillhandahåller en gruppering av en uppsättning blobar. Ett lagringskonto kan innehålla ett obegränsat antal containrar, och varje container kan lagra ett obegränsat antal blobbar.
Azure Storage är ett bra val för stordata- och analyslösningar på grund av flexibilitet, hög tillgänglighet och låg kostnad. Den tillhandahåller lagringsnivåer för frekvent, lågfrekvent och arkivlagring för olika användningsfall. Mer information finns i Lagringsnivåer för Azure Blob Storage: Frekvent, lågfrekvent lagring och arkivlagring.
Azure Blob Storage kan nås från Hadoop (tillgängligt via HDInsight). HDInsight kan använda en blobcontainer i Azure Storage som standardfilsystem för klustret. Via ett HDFS-gränssnitt (Hadoop Distributed File System) som tillhandahålls av en WASB-drivrutin kan den fullständiga uppsättningen komponenter i HDInsight fungera direkt på strukturerade eller ostrukturerade data som lagras som blobar. Azure Blob Storage kan också nås via Azure Synapse Analytics med hjälp av dess PolyBase-funktion.
Andra funktioner som gör Azure Storage till ett bra val är:
- Flera samtidighetsstrategier.
- Alternativ för haveriberedskap och hög tillgänglighet.
- Kryptering i vila.
- Rollbaserad åtkomstkontroll i Azure (RBAC) för att styra åtkomst med hjälp av Microsoft Entra-användare och -grupper.
Data Lake Storage Gen2
Data Lake Storage Gen2 är en enda centraliserad lagringsplats där du kan lagra alla dina data, både strukturerade och ostrukturerade. Med en datasjö kan din organisation snabbt och enklare lagra, komma åt och analysera en mängd olika data på en enda plats. Med en datasjö behöver du inte anpassa dina data för att passa en befintlig struktur. I stället kan du lagra dina data i dess råa eller interna format, vanligtvis som filer eller som binära stora objekt (blobar).
Data Lake Storage Gen2 konvergerar funktionerna i Azure Data Lake Storage Gen1 med Azure Blob Storage. Data Lake Storage Gen2 tillhandahåller till exempel filsystemssemantik, säkerhet på filnivå och skalning. Eftersom dessa funktioner bygger på Blob Storage får du även låg kostnad, nivåindelad lagring med hög tillgänglighet/haveriberedskapsfunktioner.
Data Lake Storage Gen2 gör Azure Storage till grunden för att skapa företagsdatasjöar i Azure. Data Lake Storage Gen2 har utformats från början till att betjäna flera petabyte med information och samtidigt upprätthålla hundratals gigabit dataflöde, så att du enkelt kan hantera enorma mängder data.
Azure Cosmos DB
Azure Cosmos DB är Microsofts globalt distribuerade databas för flera modeller. Azure Cosmos DB garanterar svarstider med ensiffrig millisekunder på den 99:e percentilen var som helst i världen, tillhandahåller flera väldefinierade konsekvensmodeller för att finjustera prestanda och garanterar hög tillgänglighet med funktioner för flera värdar.
Azure Cosmos DB är schemaagnostisk. Den indexerar automatiskt alla data utan att du behöver hantera schema- och indexhantering. Det är också flera modeller, som har inbyggt stöd för datamodeller för dokument, nyckelvärde, diagram och kolumnfamilj.
Azure Cosmos DB-funktioner:
- Geo-replikering
- Elastisk skalbarhet av dataflöden och lagringsutrymme över hela världen
- Fem väldefinierade konsekvensnivåer
HBase på HDInsight
Apache HBase är en NoSQL-databas med öppen källkod som bygger på Hadoop och modelleras efter Google BigTable. HBase ger slumpmässig åtkomst och stark konsekvens för stora mängder ostrukturerade och halvstrukturerade data i en schemalös databas som ordnas efter kolumnfamiljer.
Data lagras i tabellens rader och data i raderna grupperas per kolumnfamilj. HBase är schemalöst i den meningen att varken kolumnerna eller typen av data som lagras i dem behöver definieras innan de används. Den öppna källkoden skalas linjärt för att hantera petabyte med data på tusentals noder. Den kan utgå ifrån dataredundans, batchbearbetning och andra funktioner som tillhandahålls av distribuerade program i Hadoop-miljön.
HDInsight-implementeringen använder utskalningsarkitekturen för HBase för att tillhandahålla automatisk horisontell partitionering av tabeller, stark konsekvens för läsningar och skrivningar samt automatisk redundans. Prestanda utökas av cachelagring i minnet för läsning och snabb strömning för skrivning. I de flesta fall vill du skapa HBase-klustret i ett virtuellt nätverk så att andra HDInsight-kluster och -program kan komma åt tabellerna direkt.
Öppna Azure-datautforskaren
Azure Data Explorer är en snabb och mycket skalbar datautforskningstjänst för logg- och telemetridata. Det hjälper dig att hantera de många dataströmmar som genereras av modern programvara så att du kan samla in, lagra och analysera data. Azure Data Explorer är perfekt för att analysera stora volymer av olikartade data från olika datakällor, till exempel webbplatser, program, IoT-enheter med mera. Dessa data används för diagnostik, övervakning, rapportering, maskininlärning och ytterligare analysfunktioner. Azure Data Explorer gör det enkelt att mata in dessa data och gör att du kan göra komplexa oplanerade frågor på data på några sekunder.
Azure Data Explorer kan skalas ut linjärt för att öka dataflödet för inmatning och frågebearbetning. Ett Azure Data Explorer-kluster kan distribueras till ett virtuellt nätverk för att aktivera privata nätverk.
Kriterier för nyckelval
För att begränsa alternativen börjar du med att svara på följande frågor:
Behöver du en enhetlig datasjö med stöd för flera moln, robust styrning och sömlös integrering med analysverktyg? Om ja väljer du OneLake i Fabric för förenklad datahantering och förbättrat samarbete.
Behöver du hanterad molnbaserad lagring med hög hastighet för någon typ av text eller binära data? Om ja väljer du något av alternativen för fillagring eller analys.
Behöver du fillagring som är optimerad för parallella analysarbetsbelastningar och högt dataflöde/IOPS? Om ja väljer du ett alternativ som är justerat för analys av arbetsbelastningsprestanda.
Behöver du lagra ostrukturerade eller halvstrukturerade data i en schemalös databas? I så fall väljer du något av alternativen för icke-relationell analys eller analys. Jämför alternativ för indexering och databasmodeller. Beroende på vilken typ av data du behöver lagra kan de primära databasmodellerna vara den största faktorn.
Kan du använda tjänsten i din region? Kontrollera regional tillgänglighet för varje Azure-tjänst. Mer information finns i Produkttillgänglighet per region.
Kapacitetsmatris
I följande tabeller sammanfattas de viktigaste skillnaderna i funktioner.
OneLake i infrastrukturresurser
Kapacitet | OneLake i infrastrukturresurser |
---|---|
Enhetlig datasjö | Tillhandahåller en enda, enhetlig datasjö för hela organisationen, vilket eliminerar datasilor. |
Stöd för flera moln | Stöder integrering och kompatibilitet med olika molnplattformar. |
Datastyrning | Innehåller funktioner som data härkomst, dataskydd, certifiering och katalogintegrering. |
Centraliserad datahubb | Fungerar som en centraliserad hubb för dataidentifiering och hantering. |
Stöd för analysmotor | Kompatibel med flera analysmotorer. Med den här kompatibiliteten kan olika verktyg och tekniker användas på samma data. |
Säkerhet och regelefterlevnad | Säkerställer att känsliga data förblir säkra och att åtkomst endast är begränsad till behöriga användare. |
Användarvänlighet | Ger en användarvänlig design som automatiskt är tillgänglig för varje Fabric-klientorganisation och som inte kräver någon konfiguration. |
Skalbarhet | Kan hantera stora mängder data från olika källor. |
Fillagringsfunktioner
Kapacitet | Data Lake Storage Gen2 | Azure Blob Storage-containrar |
---|---|---|
Syfte | Optimerad lagring för stordataanalysarbetsbelastningar | Objektarkiv för generell användning för en mängd olika lagringsscenarier |
Användningsfall | Batch, strömmande analys och maskininlärningsdata, till exempel loggfiler, IoT-data, klickströmmar, stora datamängder | Alla typer av text eller binära data, till exempel programserverdel, säkerhetskopieringsdata, medielagring för direktuppspelning och allmänna data |
Struktur | Hierarkiskt filsystem | Objektarkiv med platt namnrymd |
Autentisering | Baserat på Microsoft Entra-identiteter | Baserat på kontoåtkomstnycklar för delade hemligheter och signaturnycklar för delad åtkomst och rollbaserad åtkomstkontroll i Azure (Azure RBAC) |
Autentiseringsprotokoll | Öppna auktorisering (OAuth) 2.0. Anrop måste innehålla en giltig JWT (JSON-webbtoken) som utfärdats av Microsoft Entra ID | Hash-baserad kod för meddelandeautentisering (HMAC). Anrop måste innehålla en Base64-kodad SHA-256-hash över en del av HTTP-begäran. |
Auktorisering | PORTABEL OPERATIVSYSTEM Gränssnitt (POSIX) åtkomstkontrollistor (ACL). ACL:er baserade på Microsoft Entra-identiteter kan ställas in på fil- och mappnivå. | För auktorisering på kontonivå använder du kontoåtkomstnycklar. För konto-, container- eller blobauktorisering använder du signaturnycklar för delad åtkomst. |
Granskning | Tillgängligt. | Tillgängligt |
Kryptering i vila | Transparent, serversidan | Transparent, serversidan; Kryptering på klientsidan |
SDK:er för utvecklare | .NET, Java, Python, Node.js | .NET, Java, Python, Node.js, C++, Ruby |
Analys av arbetsbelastningsprestanda | Optimerad prestanda för parallella analysarbetsbelastningar, högt dataflöde och IOPS | Inte optimerad för analysarbetsbelastningar |
Storleksbegränsningar | Inga begränsningar för kontostorlekar, filstorlekar eller antal filer | Specifika gränser som dokumenteras här |
Geo-redundans | Lokalt redundant (lokalt redundant lagring (LRS)), globalt redundant (geo-redundant lagring (GRS)), läsåtkomst globalt redundant (read-access geo-redundant lagring (RA-GRS)), zonredundant (zonredundant lagring (ZRS)). | Lokalt redundant (LRS), globalt redundant (GRS), skrivskyddad globalt redundant (RA-GRS), zonredundant (ZRS). Mer information finns i Redundans för Azure Storage |
NoSQL-databasfunktioner
Kapacitet | Azure Cosmos DB | HBase på HDInsight |
---|---|---|
Primär databasmodell | Dokumentarkiv, diagram, nyckel/värde-arkiv, stort kolumnarkiv | Brett kolumnarkiv |
Sekundära index | Ja | Nej |
Stöd för SQL-språk | Ja | Ja (med hjälp av Phoenix JDBC-drivrutinen) |
Konsekvens | Stark, begränsad föråldring, session, konsekvent prefix, eventuell | Stark |
Intern Azure Functions-integrering | Ja | Nej |
Automatisk global distribution | Ja | IngenHBase-klusterreplikering kan konfigureras mellan regioner med slutlig konsekvens |
Prismodell | Elastiskt skalbara enheter för begärande (RU:er) debiteras per sekund efter behov, elastiskt skalbar lagring | Priser per minut för HDInsight-kluster (horisontell skalning av noder), lagring |
Analysdatabasfunktioner
Kapacitet | Öppna Azure-datautforskaren |
---|---|
Primär databasmodell | Relationsarkiv (kolumnarkiv), telemetri och tidsseriearkiv |
Stöd för SQL-språk | Ja |
Prismodell | Elastiskt skalbara klusterinstanser |
Autentisering | Baserat på Microsoft Entra-identiteter |
Kryptering i vila | Kundhanterade nycklar som stöds |
Analys av arbetsbelastningsprestanda | Optimerad prestanda för parallella analysarbetsbelastningar |
Storleksbegränsningar | Linjärt skalbar |
Deltagare
Den här artikeln underhålls av Microsoft. Det har ursprungligen skrivits av följande medarbetare.
Huvudförfattare:
- Zoiner Tejada | VD och arkitekt
Nästa steg
- Vad är infrastrukturresurser?
- Introduktion till analys från slutpunkt till slutpunkt med hjälp av Infrastrukturresurser
- Lösningar och tjänster för Azure Cloud Storage
- Granska dina lagringsalternativ
- Introduktion till Azure Storage
- Introduktion till Azure Data Explorer