Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
In een big data-architectuur is er vaak behoefte aan een analytische gegevensopslag die verwerkte gegevens verwerkt in een gestructureerde indeling die kan worden opgevraagd met behulp van analytische hulpprogramma's. Analytische gegevensarchieven die ondersteuning bieden voor het uitvoeren van query's op zowel hot-path- als cold-path-gegevens, worden gezamenlijk aangeduid als de ondersteunende laag of gegevens die opslag leveren.
De ondersteunende laag verwerkt gegevens van zowel het dynamische pad als het koude pad. In de Lambda-architectuur wordt de ondersteunende laag onderverdeeld in twee lagen. De serverlaag voor snelheid bevat de incrementeel verwerkte gegevens. De batchverwerkingslaag bevat de batchverwerkingsuitvoer. De ondersteunende laag vereist sterke ondersteuning voor willekeurige leesbewerkingen met lage latentie. Gegevensopslag voor de snelheidslaag moet ook willekeurige schrijfbewerkingen ondersteunen, omdat batchgewijs laden van gegevens in dit archief ongewenste vertragingen veroorzaakt. Gegevensopslag voor de batchlaag moet batch-schrijfbewerkingen ondersteunen, niet willekeurige schrijfbewerkingen.
Er is geen enkele beste keuze voor gegevensbeheer voor alle gegevensopslagtaken. Verschillende oplossingen voor gegevensbeheer zijn geoptimaliseerd voor verschillende taken. De meeste echte cloud-apps en big data-processen hebben verschillende vereisten voor gegevensopslag en maken vaak gebruik van een combinatie van oplossingen voor gegevensopslag.
Moderne analytische oplossingen, zoals Microsoft Fabric, bieden een uitgebreid platform dat verschillende gegevensservices en hulpprogramma's integreert om te voldoen aan diverse analytische behoeften. Fabric bevat OneLake, een enkele, geïntegreerde, logische data lake voor uw hele organisatie. OneLake is ontworpen voor het opslaan, beheren en beveiligen van alle organisatiegegevens op één locatie. Dankzij deze flexibiliteit kan uw organisatie voldoen aan een breed scala aan vereisten voor gegevensopslag en -verwerking.
Een analytische gegevensopslag kiezen
Er zijn verschillende opties voor dataopslag in Azure, afhankelijk van uw behoeften.
- Stof
- Azure Synapse Analytics
- Spark-pools voor Azure Synapse Analytics
- Azure Databricks
- Azure Data Explorer
- Azure SQL Database
- SQL Server in Azure VM
- Apache HBase en Apache Phoenix in Azure HDInsight
- Apache Hive Low Latency Analytical Processing (LLAP) in Azure HDInsight
- Azure Analysis Services
- Azure Cosmos DB
De volgende databasemodellen zijn geoptimaliseerd voor verschillende typen taken:
In databases met sleutelwaarden wordt één geserialiseerd object voor elke sleutelwaarde opgeslagen. Ze zijn geschikt voor het beheren van grote hoeveelheden gegevens wanneer het ophalen is gebaseerd op een specifieke sleutel, zonder dat er query's hoeven te worden uitgevoerd op andere itemeigenschappen.
Documentdatabases zijn sleutel-waardedatabases waarin de waarden documenten zijn. In deze context is een document een verzameling benoemde velden en waarden. De database slaat de gegevens doorgaans op in een indeling zoals XML, YAML, JSON of binaire JSON, maar kan tekst zonder opmaak gebruiken. Documentdatabases kunnen query's uitvoeren op niet-sleutelvelden en secundaire indexen definiëren om de efficiëntie van query's te verbeteren. Deze mogelijkheid maakt een documentdatabase geschikter voor toepassingen die gegevens moeten ophalen op basis van criteria die complexer zijn dan de waarde van de documentsleutel. U kunt bijvoorbeeld query's uitvoeren op velden zoals product-id, klant-id of klantnaam.
Kolomgeoriënteerde databases zijn sleutel-waardedatastores waarin elke kolom afzonderlijk op de schijf wordt opgeslagen. Een brede kolomopslagdatabase is een type kolomarchiefdatabase waarin kolomfamilies, niet alleen enkele kolommen, worden opgeslagen. Een volkstellingsdatabase kan bijvoorbeeld een afzonderlijke kolomfamilie hebben voor elk van de volgende items:
De voor- en achternaam van een persoon
Adres van die persoon
De profielgegevens van die persoon, zoals hun geboortedatum of geslacht
De database kan elke kolomfamilie opslaan in een afzonderlijke partitie, terwijl alle gegevens voor één persoon met dezelfde sleutel worden bewaard. Een toepassing kan één kolomfamilie lezen zonder alle gegevens voor een entiteit te scannen.
Grafiekdatabases slaan gegevens op als een verzameling objecten en relaties. Een grafiekdatabase kan efficiënt query's uitvoeren die het netwerk van objecten en de relaties tussen deze objecten doorkruisen. De objecten kunnen bijvoorbeeld werknemers zijn in een human resources-database en u wilt query's vergemakkelijken, zoals 'alle werknemers zoeken die direct of indirect voor Scott werken'.
Telemetrie- en tijdreeksdatabases zijn een verzameling objecten die alleen kunnen worden toegevoegd. Telemetriedatabases indexeren efficiënt gegevens in verschillende kolomarchieven en in-memory structuren. Deze mogelijkheid maakt ze de optimale keuze voor het opslaan en analyseren van grote hoeveelheden telemetrie en tijdreeksgegevens.
Fabric ondersteunt verschillende databasemodellen, waaronder sleutel-waarde, document, kolomopslag, grafiek- en telemetriedatabases. Deze flexibiliteit zorgt voor schaalbaarheid voor een breed scala aan analytische taken.
Criteria voor sleutelselectie
Houd rekening met de volgende criteria om het selectieproces te verfijnen:
Heeft u opslag nodig die kan dienen als een hot path voor uw gegevens? Zo ja, beperk uw opties tot die opties die geoptimaliseerd zijn voor een laag voor snelheidsprestaties.
Hebt u ondersteuning voor grootschalige parallelle verwerking nodig, waarbij query's automatisch worden gedistribueerd over verschillende processen of knooppunten? Zo ja, selecteert u een optie die ondersteuning biedt voor uitschalen van query's.
Wilt u liever een relationeel gegevensarchief gebruiken? Als u dit doet, beperkt u de opties tot de opties met een relationeel databasemodel. Sommige niet-relationele archieven ondersteunen echter SQL-syntaxis voor het uitvoeren van query's en hulpprogramma's zoals PolyBase kunnen worden gebruikt om query's uit te voeren op niet-relationele gegevensarchieven.
Verzamelt u tijdreeksgegevens? Gebruikt u alleen toevoeggegevens?
Fabric OneLake ondersteunt meerdere analytische engines, waaronder Analysis Services, T-SQL en Apache Spark. Deze ondersteuning maakt het geschikt voor verschillende gegevensverwerkings- en querybehoeften.
Mogelijkheidsmatrix
De volgende tabellen bevatten een overzicht van de belangrijkste verschillen in mogelijkheden.
Algemene mogelijkheden
Mogelijkheid | SQL Databank | Azure Synapse Analytics SQL-pool | Spark-pool voor Azure Synapse Analytics | Azure-gegevensverkenner | Apache HBase of Apache Phoenix op HDInsight | Hive LLAP in HDInsight | Analyse diensten | Azure Cosmos DB | Stof |
---|---|---|---|---|---|---|---|---|---|
Is het een beheerde service? | Ja | Ja | Ja | Ja | Ja 1 | Ja 1 | Ja | Ja | Ja |
Het primaire databasemodel | Relationeel (kolomgebaseerde opslagindeling wanneer u kolomopslagindexen gebruikt) | Relationele tabellen met kolomopslag | Brede kolomopslag | Relationeel (kolomopslag), telemetrie en tijdreeksopslag | Brede kolomopslag | Hive of in-memory | Semantische modellen in tabelvorm | Documentdatastore, graaf, sleutel-waardedatabase, brede kolomdatastore | Unified Data Lake, relationele database, telemetrie, tijdreeks, documentarchief, grafendatabase, sleutel-waarde databank |
Ondersteuning voor SQL-taal | Ja | Ja | Ja | Ja | Ja (met apache Phoenix Java Database Connectivity-stuurprogramma) | Ja | Nee | Ja | Ja |
Geoptimaliseerd voor een snelle bedieningslaag | Ja 2 | Ja 3 | Ja | Ja | Ja | Ja | Nee | Ja | Ja |
[1] Met handmatige configuratie en schaalaanpassing.
[2] Gebruik van tabellen met geoptimaliseerd geheugen en hash of niet-geclusterde indexen.
[3] Ondersteund als een Azure Stream Analytics-uitvoer.
Schaalbaarheidsmogelijkheden
Mogelijkheid | SQL Databank | Azure Synapse Analytics SQL-pool | Spark-pool voor Azure Synapse Analytics | Azure-gegevensverkenner | Apache HBase of Apache Phoenix op HDInsight | Hive LLAP in HDInsight | Analyse diensten | Azure Cosmos DB | Stof |
---|---|---|---|---|---|---|---|---|---|
Redundante regionale servers voor hoge beschikbaarheid | Ja | Nee | Nee | Ja | Ja | Nee | Ja | Ja | Ja |
Ondersteunt het uitschalen van query's | Nee | Ja | Ja | Ja | Ja | Ja | Ja | Ja | Ja |
Dynamische schaalbaarheid (opschalen) | Ja | Ja | Ja | Ja | Nee | Nee | Ja | Ja | Ja |
Ondersteunt in-memory caching van gegevens | Ja | Ja | Ja | Ja | Nee | Ja | Ja | Nee | Ja |
Beveiligingsmogelijkheden
Mogelijkheid | SQL Databank | Azure Synapse Analytics | Azure-gegevensverkenner | Apache HBase of Apache Phoenix op HDInsight | Hive LLAP in HDInsight | Analyse diensten | Azure Cosmos DB | Stof |
---|---|---|---|---|---|---|---|---|
Verificatie | SQL / Microsoft Entra ID | SQL / Microsoft Entra ID | Microsoft Entra-id | Lokale of Microsoft Entra-ID 1 | Lokale of Microsoft Entra-ID 1 | Microsoft Entra-id | Databasegebruikers of Microsoft Entra-id via toegangsbeheer (identiteits- en toegangsbeheer) | Microsoft Entra-id |
Versleuteling van gegevens in rust | Ja 2 | Ja 2 | Ja | Ja 1 | Ja 1 | Ja | Ja | Ja |
Beveiliging op rijniveau | Ja | Ja 3 | Ja | Ja 1 | Ja 1 | Ja | Nee | Ja |
Ondersteunt firewalls | Ja | Ja | Ja | Ja 4 | Ja 4 | Ja | Ja | Ja |
Dynamische gegevensmaskering | Ja | Ja | Ja | Ja 1 | Ja | Nee | Nee | Ja |
[1] Vereist dat u een AAN een domein gekoppeld HDInsight-cluster gebruikt.
[2] Vereist dat u transparante gegevensversleuteling gebruikt om uw opgeslagen gegevens te versleutelen en te decrypten.
[3] Filterpredicaten alleen. Zie Beveiliging op rijniveau voor meer informatie.
[4] Bij gebruik binnen een virtueel Azure-netwerk. Zie HDInsight uitbreiden met behulp van een virtueel Azure-netwerk voor meer informatie.
Volgende stappen
- Gegevens analyseren in een relationeel datawarehouse
- Een individuele database maken in SQL Database
- Een Azure Databricks-werkruimte maken
- Een Apache Spark-cluster maken in HDInsight met behulp van Azure Portal
- Een Azure Synapse Analytics-werkruimte maken
- Azure-gegevensservices verkennen voor moderne analyses
- Azure-database- en analyseservices verkennen
- Query's uitvoeren op Azure Cosmos DB met behulp van de API voor NoSQL