Delen via


Azure Blob Storage upgraden met Azure Data Lake Storage Gen2 mogelijkheden

Dit artikel helpt u bij het inschakelen van een hiërarchische naamruimte en het ontgrendelen van mogelijkheden zoals beveiliging op bestand- en mapniveau en snellere bewerkingen. Deze mogelijkheden worden veel gebruikt door big data-analyseworkloads en worden gezamenlijk Azure Data Lake Storage Gen2 genoemd. De populairste mogelijkheden zijn:

  • Hogere doorvoer, invoer/uitvoerbewerkingen per seconde (IOPS) en limieten voor opslagcapaciteit.

  • Snellere bewerkingen (zoals hernoemingsbewerkingen), omdat u kunt werken op afzonderlijke knooppunt-URI's.

  • Efficiënte query-engine die alleen de gegevens overdraagt die nodig zijn om een bepaalde bewerking uit te voeren.

  • Beveiliging op container-, map- en bestandsniveau.

Zie Inleiding tot Azure Data Lake Storage Gen2 voor meer informatie.

Dit artikel helpt u bij het evalueren van de impact op workloads, toepassingen, kosten, service-integraties, hulpprogramma's, functies en documentatie. Zorg ervoor dat u deze gevolgen zorgvuldig bekijkt. Wanneer u klaar bent om een account te upgraden, raadpleegt u deze stapsgewijze handleiding: Upgrade Azure Blob Storage met Azure Data Lake Storage Gen2 mogelijkheden.

Belangrijk

Een upgrade is definitief. U kunt uw account niet meer terugdraaien nadat u de upgrade hebt uitgevoerd. U wordt aangeraden uw upgrade te valideren in een niet-productieomgeving.

Invloed op beschikbaarheid

Zorg ervoor dat u enige downtime in uw account plant terwijl het upgradeproces is voltooid. Schrijfbewerkingen zijn uitgeschakeld terwijl uw account wordt bijgewerkt. Leesbewerkingen zijn niet uitgeschakeld, maar we raden u ten zeerste aan leesbewerkingen op te schorten, omdat deze bewerkingen het upgradeproces kunnen stabiliseren.

Impact op workloads en toepassingen

Blob-API's werken met accounts die een hiërarchische naamruimte hebben, dus de meeste toepassingen die met uw account communiceren met behulp van deze API's, blijven werken zonder aanpassingen.

Zie Bekende problemen met Blob Storage-API's voor een volledige lijst met problemen en tijdelijke oplossingen.

Hadoop-workloads die gebruikmaken van het WASB-stuurprogramma (Windows Azure Storage Blob Driver), moeten worden gewijzigd om het ABFS-stuurprogramma (Azure Blob File System) te gebruiken. In tegenstelling tot het WASB-stuurprogramma dat aanvragen verzendt naar het blobservice-eindpunt, doet het ABFS-stuurprogramma aanvragen naar het Data Lake Storage-eindpunt van uw account.

Data Lake Storage-eindpunt

Uw bijgewerkte account heeft een Data Lake-opslageindpunt. U vindt de URL van dit eindpunt in de Azure Portal door de pagina Eigenschappen van uw account te openen.

Categorie Algemeen gebruik v2

U hoeft uw bestaande toepassingen en workloads niet te wijzigen om dat eindpunt te gebruiken. Toegang tot meerdere protocollen in Data Lake Storage maakt het mogelijk om het Blob-service-eindpunt of het Data Lake-opslageindpunt te gebruiken om met uw gegevens te communiceren.

Azure-services en -hulpprogramma's (zoals AzCopy) kunnen gebruikmaken van het Data Lake-opslageindpunt om te communiceren met de gegevens in uw opslagaccount. U moet dit nieuwe eindpunt ook gebruiken voor alle bewerkingen die u uitvoert met behulp van de Data Lake Storage Gen2 SDK's, PowerShell-opdrachten of Azure CLI-opdrachten.

Mappen

Een Blob Storage-account dat geen hiërarchische naamruimte heeft, organiseert bestanden in een plat paradigma in plaats van een hiërarchisch paradigma. Blobs worden ingedeeld in virtuele mappen om een mapstructuur na te bootsen. Een virtuele map maakt deel uit van de naam van de blob en wordt aangegeven met het scheidingsteken. Omdat een virtuele map deel uitmaakt van de blobnaam, bestaat deze niet echt als een onafhankelijk object.

Uw nieuwe account heeft een hiërarchische naamruimte. Dit betekent dat mappen niet virtueel zijn. Het zijn concrete, onafhankelijke objecten waarop u direct kunt werken. Een map kan bestaan zonder bestanden. Wanneer u een map verwijdert, worden alle bestanden in die map verwijderd. U hoeft niet langer elke afzonderlijke blob te verwijderen voordat de map verdwijnt.

De metagegevens van de blob

Vóór de migratie worden blobmetagegevens gekoppeld aan de blobnaam, samen met het volledige virtuele pad. Na de migratie worden de metagegevens alleen gekoppeld aan de blob. Het virtuele pad naar de blob wordt een verzameling mappen. Metagegevens van een blob worden niet toegepast op een van deze mappen.

Put-bewerkingen

Wanneer u een blob uploadt en het pad dat u opgeeft een map bevat die niet bestaat, wordt die map gemaakt en wordt vervolgens de blob eraan toegevoegd. Dit gedrag is logisch in de context van een hiërarchische mappenstructuur. In een Blob Storage-account dat geen hiërarchische naamruimte heeft, wordt met de bewerking geen map gemaakt. In plaats daarvan wordt de mapnaam toegevoegd aan de naam van de blob.

Lijstbewerkingen

Een list-blobs-bewerking retourneert zowel mappen als bestanden. Elk item wordt afzonderlijk vermeld. Mappen worden in de lijst weergegeven als blobs met lengte nul. In een Blob Storage-account dat geen hiërarchische naamruimte heeft, retourneert een list-blobs-bewerking alleen blobs en geen mappen. Als u de bewerking Data Lake Storage Gen2 Pad - Lijst gebruikt, worden mappen weergegeven als mapvermeldingen en niet als blobs met lengte nul.

De volgorde van de lijst is ook anders. Mappen en bestanden worden als eerste zoekvolgorde weergegeven. Een Blob Storage-account dat geen hiërarchische naamruimte heeft, bevat blobs in lexicografische volgorde.

Bewerkingen om de naam van blobs te wijzigen

Het wijzigen van de naam van een blob is veel efficiënter omdat clienttoepassingen de naam van een blob in één bewerking kunnen wijzigen. In accounts die geen hiërarchische naamruimte hebben, moeten hulpprogramma's en toepassingen een blob kopiëren en vervolgens de bron-blob verwijderen.

Notitie

Wanneer u de naam van een blob wijzigt, wordt de laatste wijzigingstijd van de blob niet bijgewerkt. Dat komt omdat de inhoud van de blob ongewijzigd blijft.

Gevolgen voor de kosten

Er zijn geen kosten verbonden aan het uitvoeren van de upgrade. Nadat u een upgrade hebt uitgevoerd, worden de kosten voor het opslaan van uw gegevens niet gewijzigd, maar de kosten van een transactie veranderen wel. Gebruik deze pagina's om kosten vergelijken te beoordelen.

U kunt ook de optie Opslagaccounts in de Azure-prijscalculator gebruiken om de impact van kosten na een upgrade te schatten.

Afgezien van prijswijzigingen, moet u rekening houden met de kostenbesparingen die zijn gekoppeld aan Data Lake Storage Gen2 mogelijkheden. De totale totale eigendomskosten nemen doorgaans af vanwege een hogere doorvoer en geoptimaliseerde bewerkingen. Met een hogere doorvoer kunt u meer gegevens in minder tijd overdragen. Een hiërarchische naamruimte verbetert de efficiëntie van bewerkingen.

Invloed op service-integraties

Hoewel de meeste Azure-serviceintegraties blijven werken nadat u deze mogelijkheden hebt ingeschakeld, blijven sommige ervan in preview of nog niet ondersteund. Zie Azure-services die ondersteuning bieden voor Azure Data Lake Storage Gen2 voor meer informatie over de huidige ondersteuning voor Azure-service-integraties met Data Lake Storage Gen2.

Gevolgen voor hulpprogramma's, functies en documentatie

Nadat u een upgrade hebt uitgevoerd, verandert de manier waarop u met bepaalde functies communiceert. In deze sectie worden deze wijzigingen beschreven.

Ondersteuning voor de Blob Storage-functie

Hoewel de meeste blobopslagfuncties blijven werken nadat u deze mogelijkheden hebt ingeschakeld, blijven sommige functies in preview of worden ze nog niet ondersteund.

Zie Beschikbare Blob Storage-functies in Azure Data Lake Storage Gen2 om inzicht te krijgen in de huidige ondersteuning voor blobopslagfuncties met Data Lake Storage Gen2.

Diagnostische logboeken

Als u Logboekregistratie van Opslaganalyse inschakelt, hebt u nu de optie om de logboekindeling van versie 2.0 te gebruiken.

U hoeft deze nieuwe versie niet te gebruiken. Bewerkingen die worden toegepast op het Data Lake-opslageindpunt, worden echter alleen vastgelegd in versie 2.0-logboeken. Sommige services en hulpprogramma's die u gebruikt (zoals AzCopy), gebruiken dat eindpunt om bewerkingen op uw account uit te voeren. Om ervoor te zorgen dat u logboekgegevens van alle activiteiten vastlegt, kunt u overwegen de logboekindeling van versie 2.0 te gebruiken.

Levenscyclusbeheer van Azure

In feite wordt uitgelegd dat beleidsregels voor het verplaatsen of verwijderen van alle blobs in een map de map zelf pas verwijderen als alle blobs erin zijn verwijderd en dat de map de volgende dag wordt verwijderd.

Event Grid

Uw nieuwe account heeft twee eindpunten: het Data Lake-opslageindpunt en het blobservice-eindpunt. Services, hulpprogramma's en toepassingen kunnen beide eindpunten gebruiken om uw gegevens te bewerken. Als gevolg hiervan kan een gebeurtenisantwoord dat wordt geretourneerd door het Event Grid een van deze twee eindpunten weergeven in het URL-veld waarin de betrokken blob wordt beschreven.

De volgende JSON toont de URL van een blob die wordt weergegeven in het gebeurtenisantwoord wanneer een blob wordt gemaakt met behulp van het Blob-service-eindpunt.

{
  "topic": "/subscriptions/{subscription-id}/resourceGroups/Storage/providers/Microsoft.Storage/storageAccounts/my-storage-account",
  "subject": "/blobServices/default/containers/test-container/blobs/new-file.txt",
  "eventType": "Microsoft.Storage.BlobCreated",
  "eventTime": "2017-06-26T18:41:00.9584103Z",
  "id": "831e1650-001e-001b-66ab-eeb76e069631",
  "data": {
    "api": "PutBlockList",
    "clientRequestId": "6d79dbfb-0e37-4fc4-981f-442c9ca65760",
    "requestId": "831e1650-001e-001b-66ab-eeb76e000000",
    "eTag": "\"0x8D4BCC2E4835CD0\"",
    "contentType": "text/plain",
    "contentLength": 524288,
    "blobType": "BlockBlob",
    "url": "https://my-storage-account.blob.core.windows.net/testcontainer/new-file.txt",
    "sequencer": "00000000000004420000000000028963",
    "storageDiagnostics": {
      "batchId": "b68529f3-68cd-4744-baa4-3c0498ec19f0"
    }
  },
  "dataVersion": "",
  "metadataVersion": "1"
}

In de volgende JSON ziet u de URL van een blob die wordt weergegeven in het gebeurtenisantwoord wanneer een blob wordt gemaakt met behulp van het Data Lake-opslageindpunt.

{
  "topic": "/subscriptions/{subscription-id}/resourceGroups/Storage/providers/Microsoft.Storage/storageAccounts/my-storage-account",
  "subject": "/blobServices/default/containers/my-file-system/blobs/new-file.txt",
  "eventType": "Microsoft.Storage.BlobCreated",
  "eventTime": "2017-06-26T18:41:00.9584103Z",
  "id": "831e1650-001e-001b-66ab-eeb76e069631",
  "data": {
    "api": "CreateFile",
    "clientRequestId": "6d79dbfb-0e37-4fc4-981f-442c9ca65760",
    "requestId": "831e1650-001e-001b-66ab-eeb76e000000",
    "eTag": "\"0x8D4BCC2E4835CD0\"",
    "contentType": "text/plain",
    "contentLength": 0,
    "contentOffset": 0,
    "blobType": "BlockBlob",
    "url": "https://my-storage-account.dfs.core.windows.net/my-file-system/new-file.txt",
    "sequencer": "00000000000004420000000000028963",
    "storageDiagnostics": {
      "batchId": "b68529f3-68cd-4744-baa4-3c0498ec19f0"
    }
  },
  "dataVersion": "2",
  "metadataVersion": "1"
}

Als uw toepassingen gebruikmaken van Event Grid, moet u deze toepassingen mogelijk wijzigen om hiermee rekening te houden.

Storage Explorer

De volgende knoppen worden nog niet weergegeven op het lint van Azure Storage Explorer:

Knop Reden
URL kopiëren Nog niet geïmplementeerd
Momentopnamen beheren Nog niet geïmplementeerd
Verwijderen ongedaan maken Is afhankelijk van blobopslagfuncties die nog niet worden ondersteund met Data Lake Storage Gen2

De volgende knoppen werken anders in uw nieuwe account.

Knop Blob Storage-gedrag Data Lake Storage Gen2 gedrag
Map Map is virtueel en verdwijnt als u er geen bestanden aan toevoegt. Map bestaat zelfs zonder dat er bestanden aan zijn toegevoegd.
Naam wijzigen Resulteert in een kopie en vervolgens een verwijdering van de bron-blob Wijzigt de naam van dezelfde blob. Veel efficiënter.

Documentatie

U vindt hier richtlijnen voor het gebruik van Data Lake Storage Gen2 mogelijkheden: Inleiding tot Azure Data Lake Storage Gen2.

Er is niets gewijzigd met betrekking tot waar u de richtlijnen vindt voor alle bestaande blobopslagfuncties. Deze richtlijnen vindt u hier: Inleiding tot Azure Blob Storage.

Wanneer u tussen inhoudssets navigeert, ziet u enkele kleine terminologieverschillen. Inhoud die wordt aanbevolen in de Data Lake Storage Gen2 inhoud kan bijvoorbeeld de term bestand en bestandssysteem gebruiken in plaats van blob en container. De termen bestand en bestandssysteem zijn diep geworteld in de wereld van big data-analyse, waar Data Lake Storage een lange geschiedenis heeft. De inhoud bevat deze termen om deze herkenbaar te houden voor deze doelgroepen. Deze termen beschrijven geen afzonderlijke zaken.

Volgende stappen

Wanneer u klaar bent om uw opslagaccount te upgraden om Data Lake Storage Gen2 mogelijkheden op te nemen, raadpleegt u deze stapsgewijze handleiding.