Een big data-opslagtechnologie kiezen in Azure

Artikel
10/05/2024

In dit artikel worden opties voor gegevensopslag voor big data-oplossingen vergeleken, met name gegevensopslag voor bulkgegevensopname en batchverwerking, in plaats van analytische gegevensarchieven of realtime streamingopname.

Wat zijn uw opties bij het kiezen van gegevensopslag in Azure?

Er zijn verschillende opties voor het opnemen van gegevens in Azure, afhankelijk van uw behoeften.

Geïntegreerde logische data lake:

OneLake in Microsoft Fabric

Bestandsopslag:

NoSQL-databases:

Analytische databases:

Azure Data Explorer

OneLake in Fabric

OneLake in Fabric is een geïntegreerde en logische data lake die is afgestemd op de hele organisatie. Het fungeert als de centrale hub voor alle analysegegevens en is opgenomen in elke Microsoft Fabric-tenant. OneLake in Fabric is gebouwd op basis van Data Lake Storage Gen2.

OneLake in Fabric:

Ondersteunt gestructureerde en ongestructureerde bestandstypen.
Slaat alle tabellaire gegevens op in Delta Parquet-indeling.
Biedt één data lake binnen tenantgrenzen die standaard worden beheerd.
Ondersteunt het maken van werkruimten binnen een tenant, zodat een organisatie eigendoms- en toegangsbeleid kan distribueren.
Ondersteunt het maken van verschillende gegevensitems, zoals lakehouses en magazijnen, waaruit u toegang hebt tot gegevens.

OneLake in Fabric fungeert als de algemene opslaglocatie voor opname, transformatie, realtime inzichten en business intelligence-visualisaties. Het centraliseert verschillende Fabric-services en slaat gegevensitems op die door alle workloads in Fabric worden gebruikt. Als u het juiste gegevensarchief voor uw Fabric-workloads wilt kiezen, raadpleegt u de handleiding voor beslissingen over fabric: kies een gegevensarchief.

Azure Storage-blobs

Azure Storage is een beheerde opslagservice die maximaal beschikbaar, veilig, duurzaam, schaalbaar en redundant is. Microsoft zorgt voor het onderhoud en handelt kritieke problemen voor u af. Azure Storage is de meest alomtegenwoordige opslagoplossing die Azure biedt, vanwege het aantal services en hulpprogramma's dat ermee kan worden gebruikt.

Er zijn verschillende Azure Storage-services die u kunt gebruiken om gegevens op te slaan. De meest flexibele optie voor het opslaan van blobs uit veel gegevensbronnen is Blob Storage. Blobs zijn eigenlijk bestanden. Ze slaan afbeeldingen, documenten, HTML-bestanden, virtuele harde schijven (VHD's), big data, zoals logboeken, back-ups van databases, vrijwel alles op. Blobs worden opgeslagen in containers, die vergelijkbaar zijn met mappen. Een container biedt een groepering van een set blobs. Een opslagaccount kan een onbeperkt aantal containers bevatten en een container kan een onbeperkt aantal blobs bevatten.

Azure Storage is een goede keuze voor big data- en analyseoplossingen, vanwege de flexibiliteit, hoge beschikbaarheid en lage kosten. Het biedt dynamische, statische en archiefopslaglagen voor verschillende gebruiksvoorbeelden. Zie Azure Blob Storage: Dynamische, statische en archiefopslaglagen voor meer informatie.

Azure Blob Storage kan worden geopend vanuit Hadoop (beschikbaar via HDInsight). HDInsight kan een blobcontainer in Azure Storage gebruiken als het standaardbestandssysteem voor het cluster. Via een HDFS-interface (Hadoop Distributed File System) die wordt geleverd door een WASB-stuurprogramma, kan de volledige set onderdelen in HDInsight rechtstreeks worden uitgevoerd op gestructureerde of ongestructureerde gegevens die zijn opgeslagen als blobs. Azure Blob Storage kan ook worden geopend via Azure Synapse Analytics met behulp van de PolyBase-functie.

Andere functies die Azure Storage een goede keuze maken, zijn:

Meerdere gelijktijdigheidsstrategieën.
Herstel na noodgevallen en opties voor hoge beschikbaarheid.
Versleuteling-at-rest.
Op rollen gebaseerd toegangsbeheer van Azure (RBAC) om de toegang te beheren met behulp van Microsoft Entra-gebruikers en -groepen.

Data Lake Storage Gen2

Data Lake Storage Gen2 is één centrale opslagplaats waar u al uw gegevens kunt opslaan, zowel gestructureerd als ongestructureerd. Met een data lake kan uw organisatie snel en eenvoudiger een grote verscheidenheid aan gegevens opslaan, openen en analyseren op één locatie. Met een data lake hoeft u uw gegevens niet te conformeren aan een bestaande structuur. In plaats daarvan kunt u uw gegevens opslaan in de onbewerkte of systeemeigen indeling, meestal als bestanden of als binaire grote objecten (blobs).

Data Lake Storage Gen2 convergeert de mogelijkheden van Azure Data Lake Storage Gen1 met Azure Blob Storage. Data Lake Storage Gen2 biedt bijvoorbeeld semantiek van bestandssystemen, beveiliging op bestandsniveau en schaal. Omdat deze mogelijkheden zijn gebouwd op Blob Storage, krijgt u ook goedkope, gelaagde opslag met mogelijkheden voor hoge beschikbaarheid/herstel na noodgevallen.

Data Lake Storage Gen2 maakt van Azure Storage de basis voor het bouwen van zakelijke data lakes op Azure. Data Lake Storage Gen2 is vanaf het begin ontworpen om meerdere petabytes aan gegevens te kunnen bieden met honderden gigabits aan doorvoer en stelt u in staat om eenvoudig enorme hoeveelheden gegevens te beheren.

Azure Cosmos DB

Azure Cosmos DB is de wereldwijd gedistribueerde multimodeldatabase van Microsoft. Azure Cosmos DB garandeert latenties van één milliseconde op het 99e percentiel overal ter wereld, biedt meerdere goed gedefinieerde consistentiemodellen om de prestaties af te stemmen en garandeert hoge beschikbaarheid met multihoming-mogelijkheden.

Azure Cosmos DB is schemaneutraal. Alle gegevens worden automatisch geïndexeert zonder dat u te maken hebt met schema- en indexbeheer. Het is ook een model met meerdere modellen, systeemeigen ondersteuning voor document-, sleutelwaarde-, grafiek- en kolomfamiliegegevensmodellen.

Azure Cosmos DB-functies:

HBase op HDInsight

Apache HBase is een opensource NoSQL-database die is gebouwd op Hadoop en gemodelleerd na Google BigTable. HBase biedt willekeurige toegang en sterke consistentie voor grote hoeveelheden ongestructureerde en semi-gestructureerde gegevens in een schemaloze database die is geordend op kolomfamilies.

De gegevens worden opgeslagen in de rijen van een tabel en de gegevens in een rij worden gegroepeerd op basis van de kolomfamilie. HBase is schemaloos in de zin dat noch de kolommen noch het type gegevens dat erin is opgeslagen, moeten worden gedefinieerd voordat u ze gebruikt. De open-source code wordt lineair geschaald om petabytes aan gegevens op duizenden knooppunten te verwerken. Hiervoor kan gebruik worden gemaakt van gegevensredundantie, batchverwerking en andere functies die worden geboden door gedistribueerde toepassingen in het Hadoop-ecosysteem.

De HDInsight-implementatie maakt gebruik van de uitschaalarchitectuur van HBase om automatische sharding van tabellen, sterke consistentie voor lees- en schrijfbewerkingen en automatische failover te bieden. De prestaties zijn verbeterd dankzij in-memory caching voor leesbewerkingen en streamen met een hoge gegevensdoorvoer voor schrijfbewerkingen. In de meeste gevallen wilt u het HBase-cluster in een virtueel netwerk maken, zodat andere HDInsight-clusters en -toepassingen rechtstreeks toegang hebben tot de tabellen.

Azure Data Explorer

Azure Data Explorer is een snelle en zeer schaalbare service voor gegevensverkenning voor logboek- en telemetriegegevens. Het helpt u bij het afhandelen van de vele gegevensstromen die worden verzonden door moderne software, zodat u gegevens kunt verzamelen, opslaan en analyseren. Azure Data Explorer is ideaal om grote hoeveelheden diverse gegevens van elke gegevensbron te analyseren, zoals websites, toepassingen, IoT-apparaten en meer. Deze gegevens worden gebruikt voor diagnose, bewaking, rapportage, machine learning en aanvullende analysemogelijkheden. Met Azure Data Explorer kunt u deze gegevens eenvoudig opnemen en kunt u complexe ongeplande query's uitvoeren op de gegevens in seconden.

Azure Data Explorer kan lineair worden uitgeschaald voor een toenemende opname- en queryverwerkingsdoorvoer. Een Azure Data Explorer-cluster kan worden geïmplementeerd in een virtueel netwerk voor het inschakelen van privénetwerken.

Criteria voor sleutelselectie

Om de keuzes te beperken, beantwoordt u eerst deze vragen:

Hebt u een geïntegreerde Data Lake nodig met ondersteuning voor meerdere clouds, robuuste governance en naadloze integratie met analytische hulpprogramma's? Zo ja, kies Dan OneLake in Fabric voor vereenvoudigd gegevensbeheer en verbeterde samenwerking.
Hebt u beheerde, snelle, cloudopslag nodig voor elk type tekst of binaire gegevens? Zo ja, kies dan een van de opties voor bestandsopslag of analyse.
Hebt u bestandsopslag nodig die is geoptimaliseerd voor parallelle analyseworkloads en hoge doorvoer/IOPS? Zo ja, kies dan een optie die is afgestemd op de prestaties van analyseworkloads.
Moet u ongestructureerde of semi-gestructureerde gegevens opslaan in een schemaloze database? Zo ja, selecteert u een van de niet-relationele of analyseopties. Vergelijkingsopties voor indexering en databasemodellen. Afhankelijk van het type gegevens dat u moet opslaan, zijn de primaire databasemodellen mogelijk de grootste factor.
Kunt u de service in uw regio gebruiken? Controleer de regionale beschikbaarheid voor elke Azure-service. Zie Producten beschikbaar per regio voor meer informatie.

Mogelijkheidsmatrix

De volgende tabellen bevatten een overzicht van de belangrijkste verschillen in mogelijkheden.

Mogelijkheden van OneLake in Fabric

Mogelijkheid	OneLake in Fabric
Unified Data Lake	Biedt één geïntegreerde data lake voor de hele organisatie, waardoor gegevenssilo's worden geëlimineerd.
Ondersteuning voor meerdere clouds	Ondersteunt integratie en compatibiliteit met verschillende cloudplatforms.
Gegevens-governance	Bevat functies zoals gegevensherkomst, gegevensbescherming, certificering en catalogusintegratie.
Gecentraliseerde gegevenshub	Fungeert als een gecentraliseerde hub voor gegevensdetectie en -beheer.
Ondersteuning voor analytische engine	Compatibel met meerdere analytische engines. Dankzij deze compatibiliteit kunnen diverse hulpprogramma's en technologieën op dezelfde gegevens worden uitgevoerd.
Beveiliging en naleving	Zorgt ervoor dat gevoelige gegevens veilig blijven en de toegang wordt beperkt tot alleen geautoriseerde gebruikers.
Gebruiksgemak	Biedt een gebruiksvriendelijk ontwerp dat automatisch beschikbaar is voor elke Fabric-tenant en waarvoor geen installatie is vereist.
Schaalbaarheid	Kan grote hoeveelheden gegevens uit verschillende bronnen verwerken.

Mogelijkheden voor bestandsopslag

Mogelijkheid	Data Lake Storage Gen2	Azure Blob Storage-containers
Doel	Geoptimaliseerde opslag voor big data-analyseworkloads	Objectopslag voor algemeen gebruik voor een groot aantal opslagscenario's
Gebruiksgevallen	Batch-, streaming-analyse- en machine learning-gegevens zoals logboekbestanden, IoT-gegevens, klik op streams, grote gegevenssets	Elk type tekst of binaire gegevens, zoals back-end van toepassingen, back-upgegevens, mediaopslag voor streaming en algemene gegevens
Structuur	Hiërarchisch bestandssysteem	Objectarchief met platte naamruimte
Verificatie	Op basis van Microsoft Entra-identiteiten	Op basis van toegangssleutels voor gedeelde geheimen en Shared Access Signature-sleutels en op rollen gebaseerd toegangsbeheer van Azure (Azure RBAC)
Verificatieprotocol	Open Authorization (OAuth) 2.0. Aanroepen moeten een geldig JWT (JSON-webtoken) bevatten dat is uitgegeven door Microsoft Entra ID	HMAC (Hash-based Message Authentication Code). Aanroepen moeten een SHA-256-hash met Base64-codering bevatten via een deel van de HTTP-aanvraag.
Autorisatie	POSIX -toegangsbeheerlijsten (ACL's) voor portable Operating System Interface (POSIX). ACL's op basis van Microsoft Entra-identiteiten kunnen bestand- en mapniveau instellen.	Gebruik accounttoegangssleutels voor autorisatie op accountniveau. Voor account-, container- of blobautorisatie gebruikt u Shared Access Signature Keys.
Controle	Beschikbaar.	Beschikbaar
Versleuteling 'at rest'	Transparant, serverzijde	Transparant, serverzijde; Versleuteling aan clientzijde
Sdk's voor ontwikkelaars	.NET, Java, Python, Node.js	.NET, Java, Python, Node.js, C++, Ruby
Prestaties van analyseworkloads	Geoptimaliseerde prestaties voor parallelle analyseworkloads, hoge doorvoer en IOPS	Niet geoptimaliseerd voor analyseworkloads
Maximale grootte	Geen limieten voor accountgrootten, bestandsgrootten of aantal bestanden	Specifieke limieten die hier worden beschreven
Geografische redundantie	Lokaal redundant (lokaal redundante opslag (LRS)), wereldwijd redundant (geografisch redundante opslag (GRS)), leestoegang wereldwijd redundant (geografisch redundante opslag met leestoegang (RA-GRS)), zone-redundant (zone-redundante opslag (ZRS)).	Lokaal redundant (LRS), globally redundant (GRS), read-access globally redundant (RA-GRS), zone-redundant (ZRS). Zie Azure Storage-redundantie voor meer informatie

NoSQL-databasemogelijkheden

Mogelijkheid	Azure Cosmos DB	HBase op HDInsight
Primair databasemodel	Documentarchief, grafiek, sleutel-waardearchief, breed kolomarchief	Breed kolomarchief
Secundaire indexen	Ja	Nr.
Ondersteuning voor SQL-taal	Ja	Ja (met behulp van het Phoenix JDBC-stuurprogramma)
Consistentie	Sterke, gebonden veroudering, sessie, consistent voorvoegsel, uiteindelijk	Sterk
Systeemeigen Azure Functions-integratie	Ja	Nr.
Automatische wereldwijde distributie	Ja	Er kan geenHBase-clusterreplicatie worden geconfigureerd in verschillende regio's met uiteindelijke consistentie
Prijsmodel	Elastisch schaalbare aanvraageenheden (RU's) die naar behoefte per seconde worden in rekening gebracht, elastisch schaalbare opslag	Prijzen per minuut voor HDInsight-cluster (horizontaal schalen van knooppunten), opslag

Mogelijkheden voor analytische databases

Mogelijkheid	Azure Data Explorer
Primair databasemodel	Relationeel (kolomarchief), telemetrie en tijdreeksarchief
Ondersteuning voor SQL-taal	Ja
Prijsmodel	Elastisch schaalbare clusterexemplaren
Verificatie	Op basis van Microsoft Entra-identiteiten
Versleuteling 'at rest'	Ondersteunde, door de klant beheerde sleutels
Prestaties van analyseworkloads	Geoptimaliseerde prestaties voor parallelle analyseworkloads
Maximale grootte	Lineair schaalbaar

Medewerkers

Dit artikel wordt onderhouden door Microsoft. De tekst is oorspronkelijk geschreven door de volgende Inzenders.

Hoofdauteur:

Zoiner Tejada | CEO en architect

Volgende stappen

Big data architectures (Big data-architecturen)
Architectuurstijl voor big data
Gegevensopslagmodellen begrijpen

Delen via

Een big data-opslagtechnologie kiezen in Azure

Wat zijn uw opties bij het kiezen van gegevensopslag in Azure?

OneLake in Fabric

Azure Storage-blobs

Data Lake Storage Gen2

Azure Cosmos DB

HBase op HDInsight

Azure Data Explorer

Criteria voor sleutelselectie

Mogelijkheidsmatrix

Mogelijkheden van OneLake in Fabric

Mogelijkheden voor bestandsopslag

NoSQL-databasemogelijkheden

Mogelijkheden voor analytische databases

Medewerkers

Volgende stappen

Feedback

Aanvullende resources

Delen via

Een big data-opslagtechnologie kiezen in Azure

Wat zijn uw opties bij het kiezen van gegevensopslag in Azure?

OneLake in Fabric

Azure Storage-blobs

Data Lake Storage Gen2

Azure Cosmos DB

HBase op HDInsight

Azure Data Explorer

Criteria voor sleutelselectie

Mogelijkheidsmatrix

Mogelijkheden van OneLake in Fabric

Mogelijkheden voor bestandsopslag

NoSQL-databasemogelijkheden

Mogelijkheden voor analytische databases

Medewerkers

Volgende stappen

Verwante resources

Feedback

Aanvullende resources