Gegevensopslag

Artikel
06/03/2024

Notitie

De Time Series Insights-service wordt op 7 juli 2024 buiten gebruik gesteld. Overweeg om bestaande omgevingen zo snel mogelijk naar alternatieve oplossingen te migreren. Raadpleeg onze documentatie voor meer informatie over de afschaffing en migratie.

In dit artikel wordt gegevensopslag in Azure Time Series Insights Gen2 beschreven. Hierin worden warme en koude, beschikbaarheid van gegevens en aanbevolen procedures behandeld.

Inrichting

Wanneer u een Azure Time Series Insights Gen2-omgeving maakt, hebt u de volgende opties:

Koude gegevensopslag:
- Maak een nieuwe Azure Storage-resource in het abonnement en de regio die u voor uw omgeving hebt gekozen.
- Voeg een bestaand Azure Storage-account toe. Deze optie is alleen beschikbaar door te implementeren vanuit een Azure Resource Manager-sjabloon en is niet zichtbaar in Azure Portal.
Warme gegevensopslag:
- Een warme winkel is optioneel en kan worden ingeschakeld of uitgeschakeld tijdens of na het inrichten. Als u besluit warme opslag op een later tijdstip in te schakelen en er al gegevens in uw koude opslag zijn, raadpleegt u deze sectie hieronder om inzicht te hebben in het verwachte gedrag. De tijd voor het bewaren van gegevens in het warme archief kan 7 tot 31 dagen worden geconfigureerd en dit kan indien nodig ook worden aangepast.

Wanneer een gebeurtenis wordt opgenomen, wordt deze geïndexeerd in zowel warme opslag (indien ingeschakeld) als koude opslag.

Waarschuwing

Als eigenaar van het Azure Blob Storage-account waarin koude opslaggegevens zich bevinden, hebt u volledige toegang tot alle gegevens in het account. Deze toegang omvat schrijf- en verwijdermachtigingen. Bewerk of verwijder de gegevens die Door Azure Time Series Insights Gen2 worden geschreven, niet omdat dit gegevensverlies kan veroorzaken.

Beschikbaarheid van gegevens

Azure Time Series Insights Gen2-partities en indexeert gegevens voor optimale queryprestaties. Gegevens worden beschikbaar om een query uit zowel warm (indien ingeschakeld) als koude opslag uit te voeren nadat deze is geïndexeerd. De hoeveelheid gegevens die wordt opgenomen en de doorvoersnelheid per partitie kan van invloed zijn op de beschikbaarheid. Bekijk de beperkingen en aanbevolen procedures voor de doorvoer van gebeurtenisbronnen voor de beste prestaties. U kunt ook een vertragingswaarschuwing configureren om een melding te ontvangen als uw omgeving problemen ondervindt met het verwerken van gegevens.

Belangrijk

Mogelijk ondervindt u een periode van maximaal 60 seconden voordat gegevens beschikbaar komen via de Time Series-query-API's. Als u een aanzienlijke latentie ondervindt die langer is dan 60 seconden, dient u een ondersteuningsticket in via Azure Portal.

Mogelijk ondervindt u een periode van maximaal 5 minuten voordat gegevens beschikbaar komen wanneer u rechtstreeks toegang krijgt tot de Parquet-bestanden buiten Azure Time Series Insights Gen2. Zie de sectie Parquet-bestandsindeling voor meer informatie.

Warme opslag

Gegevens in uw warme archief zijn alleen beschikbaar via de Time Series Query-API's, de TSI Explorer van Azure Time Series Insights of de Power BI-connector. Warme archiefquery's zijn gratis en er is geen quotum, maar er is een limiet van 30 gelijktijdige aanvragen.

Gedrag van warme opslag

Wanneer deze optie is ingeschakeld, worden alle gegevens die naar uw omgeving worden gestreamd, doorgestuurd naar uw warme archief, ongeacht de tijdstempel van de gebeurtenis. Houd er rekening mee dat de pijplijn voor streamingopname is gebouwd voor bijna realtime streaming en dat het opnemen van historische gebeurtenissen niet wordt ondersteund.
De bewaarperiode wordt berekend op basis van het moment waarop de gebeurtenis is geïndexeerd in het warme archief, niet de tijdstempel van de gebeurtenis. Dit betekent dat gegevens niet meer beschikbaar zijn in warme opslag nadat de bewaarperiode is verstreken, zelfs als de tijdstempel van de gebeurtenis voor de toekomst valt.
- Voorbeeld: een gebeurtenis met 10-daagse weersvoorspellingen wordt opgenomen en geïndexeerd in een warme opslagcontainer die is geconfigureerd met een bewaarperiode van 7 dagen. Na zeven dagen is de voorspelling niet meer toegankelijk in warme opslag, maar kan er query's worden uitgevoerd vanuit koude opslag.
Als u warme opslag inschakelt voor een bestaande omgeving met al recente gegevens die zijn geïndexeerd in koude opslag, moet u er rekening mee houden dat uw warme opslag niet opnieuw wordt gevuld met deze gegevens.
Als u zojuist warme opslag hebt ingeschakeld en problemen ondervindt bij het weergeven van uw recente gegevens in Explorer, kunt u tijdelijk warme opslagquery's uitschakelen:

Koude opslag

In deze sectie worden azure Storage-details beschreven die relevant zijn voor Azure Time Series Insights Gen2.

Lees de inleiding tot Storage-blobs voor een uitgebreide beschrijving van Azure Blob Storage.

Uw cold storage-account

Azure Time Series Insights Gen2 bewaart maximaal twee exemplaren van elke gebeurtenis in uw Azure Storage-account. In één exemplaar worden gebeurtenissen opgeslagen die zijn gerangschikt op opnametijd, waardoor altijd toegang tot gebeurtenissen in een op tijd geordende volgorde wordt toegestaan. In de loop van de tijd maakt Azure Time Series Insights Gen2 ook een opnieuw gepartitioneerde kopie van de gegevens om te optimaliseren voor performante query's.

Al uw gegevens worden voor onbepaalde tijd opgeslagen in uw Azure Storage-account.

Waarschuwing

Beperk openbare internettoegang niet tot het opslagaccount dat wordt gebruikt door Time Series Insights of de benodigde verbinding wordt verbroken.

Blobs schrijven en bewerken

Als u ervoor wilt zorgen dat queryprestaties en gegevens beschikbaar zijn, moet u geen blobs bewerken of verwijderen die door Azure Time Series Insights Gen2 worden gemaakt.

Toegang tot koude opslaggegevens

Naast toegang tot uw gegevens vanuit de Azure Time Series Insights Explorer en Time Series Query-API's, wilt u mogelijk ook rechtstreeks toegang krijgen tot uw gegevens vanuit de Parquet-bestanden die zijn opgeslagen in de koude opslag. U kunt bijvoorbeeld gegevens lezen, transformeren en opschonen in een Jupyter-notebook en deze vervolgens gebruiken om uw Azure Machine Learning-model te trainen in dezelfde Spark-werkstroom.

Als u rechtstreeks vanuit uw Azure Storage-account toegang wilt krijgen tot gegevens, hebt u leestoegang nodig tot het account dat wordt gebruikt voor het opslaan van uw Azure Time Series Insights Gen2-gegevens. Vervolgens kunt u geselecteerde gegevens lezen op basis van de aanmaaktijd van het Parquet-bestand in de PT=Time map die hieronder wordt beschreven in de sectie Parquet-bestandsindeling . Zie Toegang tot uw opslagaccountresources beheren voor meer informatie over het inschakelen van leestoegang tot uw opslagaccount.

Gegevens verwijderen

Verwijder uw Azure Time Series Insights Gen2-bestanden niet. Alleen gerelateerde gegevens beheren vanuit Azure Time Series Insights Gen2.

Parquet-bestandsindeling en mapstructuur

Parquet is een opensource columnaire bestandsindeling die is ontworpen voor efficiënte opslag en prestaties. Azure Time Series Insights Gen2 maakt gebruik van Parquet om queryprestaties op basis van tijdreeks-id's op schaal in te schakelen.

Lees de Parquet-documentatie voor meer informatie over het Parquet-bestandstype.

In Azure Time Series Insights Gen2 worden kopieën van uw gegevens als volgt opgeslagen:

De PT=Time map wordt gepartitioneerd door opnametijd en slaat gegevens ongeveer op volgorde van aankomst op. Deze gegevens blijven in de loop van de tijd behouden en u kunt deze rechtstreeks openen van buiten Azure Time Series Insight Gen2, zoals vanuit uw Spark-notebooks. De tijdstempel <YYYYMMDDHHMMSSfff> komt overeen met de opnametijd van de gegevens. De <MinEventTimeStamp> en <MaxEventTimeStamp> komen overeen met het bereik van tijdstempels van gebeurtenissen die zijn opgenomen in het bestand. Het pad en de bestandsnaam zijn opgemaakt als:

V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<MinEventTimestamp>_<MaxEventTimestamp>_<TsiInternalSuffix>.parquet
De PT=Live en PT=Tsid mappen bevatten een tweede kopie van uw gegevens, opnieuw gepartitioneerd voor queryprestaties van tijdreeksen op schaal. Deze gegevens worden in de loop van de tijd geoptimaliseerd en zijn niet statisch. Tijdens het opnieuw partitioneren kunnen sommige gebeurtenissen aanwezig zijn in meerdere blobs en kunnen de blobnamen veranderen. Deze mappen worden gebruikt door Azure Time Series Insights Gen2 en mogen niet rechtstreeks worden geopend; u mag alleen voor dat doel gebruiken PT=Time .