Välj en stordatalagringsteknik i Azure

Artikel
10/05/2024

I den här artikeln jämförs alternativ för datalagring för stordatalösningar – särskilt datalagring för massdatainmatning och batchbearbetning, i motsats till analytiska datalager eller direktuppspelning i realtid.

Vilka alternativ har du när du väljer datalagring i Azure?

Det finns flera alternativ för att mata in data i Azure, beroende på dina behov.

Enhetlig logisk datasjö:

OneLake i Microsoft Fabric

Fillagring:

NoSQL-databaser:

Analysdatabaser:

Azure-datautforskaren

OneLake i infrastrukturresurser

OneLake i Fabric är en enhetlig och logisk datasjö som är skräddarsydd för hela organisationen. Den fungerar som central hubb för alla analysdata och ingår i varje Microsoft Fabric-klientorganisation. OneLake i Fabric bygger på grunden för Data Lake Storage Gen2.

OneLake i Infrastruktur:

Stöder strukturerade och ostrukturerade filtyper.
Lagrar alla tabelldata i Delta Parquet-format.
Tillhandahåller en enda datasjö inom klientorganisationens gränser som styrs som standard.
Stöder skapandet av arbetsytor i en klientorganisation så att en organisation kan distribuera ägarskaps- och åtkomstprinciper.
Stöder skapandet av olika dataobjekt, till exempel sjöhus och lager, som du kan komma åt data från.

OneLake i Fabric fungerar som den gemensamma lagringsplatsen för inmatning, transformering, insikter i realtid och business intelligence-visualiseringar. Den centraliserar olika Infrastrukturresurser-tjänster och lagrar dataobjekt som alla arbetsbelastningar använder i Infrastrukturresurser. Information om hur du väljer rätt datalager för dina Infrastruktur-arbetsbelastningar finns i Beslutsguide för infrastrukturresurser: välj ett datalager.

Azure Storage-blobar

Azure Storage är en hanterad lagringstjänst som är mycket tillgänglig, säker, hållbar, skalbar och redundant. Microsoft tar hand om underhåll och hanterar kritiska problem åt dig. Azure Storage är den mest allestädes närvarande lagringslösningen som Azure tillhandahåller på grund av antalet tjänster och verktyg som kan användas med den.

Det finns olika Azure Storage-tjänster som du kan använda för att lagra data. Det mest flexibla alternativet för att lagra blobar från många datakällor är Blob Storage. Blobar är i princip filer. De lagrar bilder, dokument, HTML-filer, virtuella hårddiskar (VHD), stordata som loggar, databassäkerhetskopior – i stort sett vad som helst. Blobar lagras i containrar som liknar mappar. En container tillhandahåller en gruppering av en uppsättning blobar. Ett lagringskonto kan innehålla ett obegränsat antal containrar, och varje container kan lagra ett obegränsat antal blobbar.

Azure Storage är ett bra val för stordata- och analyslösningar på grund av flexibilitet, hög tillgänglighet och låg kostnad. Den tillhandahåller lagringsnivåer för frekvent, lågfrekvent och arkivlagring för olika användningsfall. Mer information finns i Lagringsnivåer för Azure Blob Storage: Frekvent, lågfrekvent lagring och arkivlagring.

Azure Blob Storage kan nås från Hadoop (tillgängligt via HDInsight). HDInsight kan använda en blobcontainer i Azure Storage som standardfilsystem för klustret. Via ett HDFS-gränssnitt (Hadoop Distributed File System) som tillhandahålls av en WASB-drivrutin kan den fullständiga uppsättningen komponenter i HDInsight fungera direkt på strukturerade eller ostrukturerade data som lagras som blobar. Azure Blob Storage kan också nås via Azure Synapse Analytics med hjälp av dess PolyBase-funktion.

Andra funktioner som gör Azure Storage till ett bra val är:

Flera samtidighetsstrategier.
Alternativ för haveriberedskap och hög tillgänglighet.
Kryptering i vila.
Rollbaserad åtkomstkontroll i Azure (RBAC) för att styra åtkomst med hjälp av Microsoft Entra-användare och -grupper.

Data Lake Storage Gen2

Data Lake Storage Gen2 är en enda centraliserad lagringsplats där du kan lagra alla dina data, både strukturerade och ostrukturerade. Med en datasjö kan din organisation snabbt och enklare lagra, komma åt och analysera en mängd olika data på en enda plats. Med en datasjö behöver du inte anpassa dina data för att passa en befintlig struktur. I stället kan du lagra dina data i dess råa eller interna format, vanligtvis som filer eller som binära stora objekt (blobar).

Data Lake Storage Gen2 konvergerar funktionerna i Azure Data Lake Storage Gen1 med Azure Blob Storage. Data Lake Storage Gen2 tillhandahåller till exempel filsystemssemantik, säkerhet på filnivå och skalning. Eftersom dessa funktioner bygger på Blob Storage får du även låg kostnad, nivåindelad lagring med hög tillgänglighet/haveriberedskapsfunktioner.

Data Lake Storage Gen2 gör Azure Storage till grunden för att skapa företagsdatasjöar i Azure. Data Lake Storage Gen2 har utformats från början till att betjäna flera petabyte med information och samtidigt upprätthålla hundratals gigabit dataflöde, så att du enkelt kan hantera enorma mängder data.

Azure Cosmos DB

Azure Cosmos DB är Microsofts globalt distribuerade databas för flera modeller. Azure Cosmos DB garanterar svarstider med ensiffrig millisekunder på den 99:e percentilen var som helst i världen, tillhandahåller flera väldefinierade konsekvensmodeller för att finjustera prestanda och garanterar hög tillgänglighet med funktioner för flera värdar.

Azure Cosmos DB är schemaagnostisk. Den indexerar automatiskt alla data utan att du behöver hantera schema- och indexhantering. Det är också flera modeller, som har inbyggt stöd för datamodeller för dokument, nyckelvärde, diagram och kolumnfamilj.

Azure Cosmos DB-funktioner:

Geo-replikering
Elastisk skalbarhet av dataflöden och lagringsutrymme över hela världen
Fem väldefinierade konsekvensnivåer

HBase på HDInsight

Apache HBase är en NoSQL-databas med öppen källkod som bygger på Hadoop och modelleras efter Google BigTable. HBase ger slumpmässig åtkomst och stark konsekvens för stora mängder ostrukturerade och halvstrukturerade data i en schemalös databas som ordnas efter kolumnfamiljer.

Data lagras i tabellens rader och data i raderna grupperas per kolumnfamilj. HBase är schemalöst i den meningen att varken kolumnerna eller typen av data som lagras i dem behöver definieras innan de används. Den öppna källkoden skalas linjärt för att hantera petabyte med data på tusentals noder. Den kan utgå ifrån dataredundans, batchbearbetning och andra funktioner som tillhandahålls av distribuerade program i Hadoop-miljön.

HDInsight-implementeringen använder utskalningsarkitekturen för HBase för att tillhandahålla automatisk horisontell partitionering av tabeller, stark konsekvens för läsningar och skrivningar samt automatisk redundans. Prestanda utökas av cachelagring i minnet för läsning och snabb strömning för skrivning. I de flesta fall vill du skapa HBase-klustret i ett virtuellt nätverk så att andra HDInsight-kluster och -program kan komma åt tabellerna direkt.

Öppna Azure-datautforskaren

Azure Data Explorer är en snabb och mycket skalbar datautforskningstjänst för logg- och telemetridata. Det hjälper dig att hantera de många dataströmmar som genereras av modern programvara så att du kan samla in, lagra och analysera data. Azure Data Explorer är perfekt för att analysera stora volymer av olikartade data från olika datakällor, till exempel webbplatser, program, IoT-enheter med mera. Dessa data används för diagnostik, övervakning, rapportering, maskininlärning och ytterligare analysfunktioner. Azure Data Explorer gör det enkelt att mata in dessa data och gör att du kan göra komplexa oplanerade frågor på data på några sekunder.

Azure Data Explorer kan skalas ut linjärt för att öka dataflödet för inmatning och frågebearbetning. Ett Azure Data Explorer-kluster kan distribueras till ett virtuellt nätverk för att aktivera privata nätverk.

Kriterier för nyckelval

För att begränsa alternativen börjar du med att svara på följande frågor:

Behöver du en enhetlig datasjö med stöd för flera moln, robust styrning och sömlös integrering med analysverktyg? Om ja väljer du OneLake i Fabric för förenklad datahantering och förbättrat samarbete.
Behöver du hanterad molnbaserad lagring med hög hastighet för någon typ av text eller binära data? Om ja väljer du något av alternativen för fillagring eller analys.
Behöver du fillagring som är optimerad för parallella analysarbetsbelastningar och högt dataflöde/IOPS? Om ja väljer du ett alternativ som är justerat för analys av arbetsbelastningsprestanda.
Behöver du lagra ostrukturerade eller halvstrukturerade data i en schemalös databas? I så fall väljer du något av alternativen för icke-relationell analys eller analys. Jämför alternativ för indexering och databasmodeller. Beroende på vilken typ av data du behöver lagra kan de primära databasmodellerna vara den största faktorn.
Kan du använda tjänsten i din region? Kontrollera regional tillgänglighet för varje Azure-tjänst. Mer information finns i Produkttillgänglighet per region.

Kapacitetsmatris

I följande tabeller sammanfattas de viktigaste skillnaderna i funktioner.

OneLake i infrastrukturresurser

Kapacitet	OneLake i infrastrukturresurser
Enhetlig datasjö	Tillhandahåller en enda, enhetlig datasjö för hela organisationen, vilket eliminerar datasilor.
Stöd för flera moln	Stöder integrering och kompatibilitet med olika molnplattformar.
Datastyrning	Innehåller funktioner som data härkomst, dataskydd, certifiering och katalogintegrering.
Centraliserad datahubb	Fungerar som en centraliserad hubb för dataidentifiering och hantering.
Stöd för analysmotor	Kompatibel med flera analysmotorer. Med den här kompatibiliteten kan olika verktyg och tekniker användas på samma data.
Säkerhet och regelefterlevnad	Säkerställer att känsliga data förblir säkra och att åtkomst endast är begränsad till behöriga användare.
Användarvänlighet	Ger en användarvänlig design som automatiskt är tillgänglig för varje Fabric-klientorganisation och som inte kräver någon konfiguration.
Skalbarhet	Kan hantera stora mängder data från olika källor.

Fillagringsfunktioner

Kapacitet	Data Lake Storage Gen2	Azure Blob Storage-containrar
Syfte	Optimerad lagring för stordataanalysarbetsbelastningar	Objektarkiv för generell användning för en mängd olika lagringsscenarier
Användningsfall	Batch, strömmande analys och maskininlärningsdata, till exempel loggfiler, IoT-data, klickströmmar, stora datamängder	Alla typer av text eller binära data, till exempel programserverdel, säkerhetskopieringsdata, medielagring för direktuppspelning och allmänna data
Struktur	Hierarkiskt filsystem	Objektarkiv med platt namnrymd
Autentisering	Baserat på Microsoft Entra-identiteter	Baserat på kontoåtkomstnycklar för delade hemligheter och signaturnycklar för delad åtkomst och rollbaserad åtkomstkontroll i Azure (Azure RBAC)
Autentiseringsprotokoll	Öppna auktorisering (OAuth) 2.0. Anrop måste innehålla en giltig JWT (JSON-webbtoken) som utfärdats av Microsoft Entra ID	Hash-baserad kod för meddelandeautentisering (HMAC). Anrop måste innehålla en Base64-kodad SHA-256-hash över en del av HTTP-begäran.
Auktorisering	PORTABEL OPERATIVSYSTEM Gränssnitt (POSIX) åtkomstkontrollistor (ACL). ACL:er baserade på Microsoft Entra-identiteter kan ställas in på fil- och mappnivå.	För auktorisering på kontonivå använder du kontoåtkomstnycklar. För konto-, container- eller blobauktorisering använder du signaturnycklar för delad åtkomst.
Granskning	Tillgängligt.	Tillgängligt
Kryptering i vila	Transparent, serversidan	Transparent, serversidan; Kryptering på klientsidan
SDK:er för utvecklare	.NET, Java, Python, Node.js	.NET, Java, Python, Node.js, C++, Ruby
Analys av arbetsbelastningsprestanda	Optimerad prestanda för parallella analysarbetsbelastningar, högt dataflöde och IOPS	Inte optimerad för analysarbetsbelastningar
Storleksbegränsningar	Inga begränsningar för kontostorlekar, filstorlekar eller antal filer	Specifika gränser som dokumenteras här
Geo-redundans	Lokalt redundant (lokalt redundant lagring (LRS)), globalt redundant (geo-redundant lagring (GRS)), läsåtkomst globalt redundant (read-access geo-redundant lagring (RA-GRS)), zonredundant (zonredundant lagring (ZRS)).	Lokalt redundant (LRS), globalt redundant (GRS), skrivskyddad globalt redundant (RA-GRS), zonredundant (ZRS). Mer information finns i Redundans för Azure Storage

NoSQL-databasfunktioner

Kapacitet	Azure Cosmos DB	HBase på HDInsight
Primär databasmodell	Dokumentarkiv, diagram, nyckel/värde-arkiv, stort kolumnarkiv	Brett kolumnarkiv
Sekundära index	Ja	Nej
Stöd för SQL-språk	Ja	Ja (med hjälp av Phoenix JDBC-drivrutinen)
Konsekvens	Stark, begränsad föråldring, session, konsekvent prefix, eventuell	Stark
Intern Azure Functions-integrering	Ja	Nej
Automatisk global distribution	Ja	IngenHBase-klusterreplikering kan konfigureras mellan regioner med slutlig konsekvens
Prismodell	Elastiskt skalbara enheter för begärande (RU:er) debiteras per sekund efter behov, elastiskt skalbar lagring	Priser per minut för HDInsight-kluster (horisontell skalning av noder), lagring

Analysdatabasfunktioner

Kapacitet	Öppna Azure-datautforskaren
Primär databasmodell	Relationsarkiv (kolumnarkiv), telemetri och tidsseriearkiv
Stöd för SQL-språk	Ja
Prismodell	Elastiskt skalbara klusterinstanser
Autentisering	Baserat på Microsoft Entra-identiteter
Kryptering i vila	Kundhanterade nycklar som stöds
Analys av arbetsbelastningsprestanda	Optimerad prestanda för parallella analysarbetsbelastningar
Storleksbegränsningar	Linjärt skalbar

Deltagare

Den här artikeln underhålls av Microsoft. Det har ursprungligen skrivits av följande medarbetare.

Huvudförfattare:

Zoiner Tejada | VD och arkitekt

Dela via

Välj en stordatalagringsteknik i Azure

Vilka alternativ har du när du väljer datalagring i Azure?

OneLake i infrastrukturresurser

Azure Storage-blobar

Data Lake Storage Gen2

Azure Cosmos DB

HBase på HDInsight

Öppna Azure-datautforskaren

Kriterier för nyckelval

Kapacitetsmatris

OneLake i infrastrukturresurser

Fillagringsfunktioner

NoSQL-databasfunktioner

Analysdatabasfunktioner

Deltagare

Nästa steg

Feedback

Ytterligare resurser

Dela via

Välj en stordatalagringsteknik i Azure

Vilka alternativ har du när du väljer datalagring i Azure?

OneLake i infrastrukturresurser

Azure Storage-blobar

Data Lake Storage Gen2

Azure Cosmos DB

HBase på HDInsight

Öppna Azure-datautforskaren

Kriterier för nyckelval

Kapacitetsmatris

OneLake i infrastrukturresurser

Fillagringsfunktioner

NoSQL-databasfunktioner

Analysdatabasfunktioner

Deltagare

Nästa steg

Relaterade resurser

Feedback

Ytterligare resurser