Datalagring

Artikel
06/01/2023

Anteckning

Tjänsten Time Series Insights (TSI) stöds inte längre efter mars 2025. Överväg att migrera befintliga TSI-miljöer till alternativa lösningar så snart som möjligt. Mer information om utfasning och migrering finns i vår dokumentation.

Den här artikeln beskriver datalagring i Azure Time Series Insights Gen2. Den omfattar varmt och kallt, datatillgänglighet och metodtips.

Etablering

När du skapar en Azure Time Series Insights Gen2-miljö har du följande alternativ:

Kall datalagring:
- Skapa en ny Azure Storage-resurs i den prenumeration och region som du har valt för din miljö.
- Koppla ett befintligt Azure Storage-konto. Det här alternativet är bara tillgängligt genom att distribuera från en Azure Resource Manager-mall och visas inte i Azure Portal.
Varm datalagring:
- Ett varmt lager är valfritt och kan aktiveras eller inaktiveras under eller efter etableringen. Om du bestämmer dig för att aktivera ett varmt lager vid ett senare tillfälle och det redan finns data i ditt kyllager kan du läsa det här avsnittet nedan för att förstå det förväntade beteendet. Den varma lagringstiden för datakvarhållning kan konfigureras i 7 till 31 dagar, och detta kan också justeras efter behov.

När en händelse matas in indexeras den i både det varma arkivet (om det är aktiverat) och i kalllager.

Varning

Som ägare till Azure Blob Storage-kontot där kalllagerdata finns har du fullständig åtkomst till alla data i kontot. Den här åtkomsten omfattar skriv- och borttagningsbehörigheter. Redigera eller ta inte bort de data som Azure Time Series Insights Gen2 skriver eftersom det kan orsaka dataförlust.

Datatillgänglighet

Azure Time Series Insights Gen2-partitioner och indexerar data för optimal frågeprestanda. Data blir tillgängliga för frågor från både varmt (om aktiverat) och kalllager när det har indexerats. Mängden data som matas in och dataflödeshastigheten per partition kan påverka tillgängligheten. Granska begränsningarna för händelsekällans dataflöde och metodtips för bästa prestanda. Du kan också konfigurera en fördröjningsavisering så att den meddelas om din miljö har problem med att bearbeta data.

Viktigt

Du kan uppleva en period på upp till 60 sekunder innan data blir tillgängliga via Time Series Query-API:erna. Om du får betydande svarstider längre än 60 sekunder skickar du ett supportärende via Azure Portal.

Du kan uppleva en period på upp till 5 minuter innan data blir tillgängliga vid direkt åtkomst till Parquet-filerna utanför Azure Time Series Insights Gen2. Mer information finns i avsnittet Parquet-filformat .

Varm butik

Data i ditt varma arkiv är endast tillgängliga via Time Series Query-API:erna, Azure Time Series Insights TSI Explorer eller Power BI Connector. Varma lagringsfrågor är kostnadsfria och det finns ingen kvot, men det finns en gräns på 30 samtidiga begäranden.

Beteende för varm lagring

När det är aktiverat dirigeras alla data som strömmas till din miljö till ditt varma lager, oavsett tidsstämpel för händelsen. Observera att pipelinen för strömmande inmatning har skapats för direktuppspelning i nära realtid och att inmatning av historiska händelser inte stöds.
Kvarhållningsperioden beräknas baserat på när händelsen indexerades i det varma lagret, inte händelsetidsstämpeln. Det innebär att data inte längre är tillgängliga i det varma arkivet efter att kvarhållningsperioden har gått ut, även om händelsetidsstämpeln är för framtiden.
- Exempel: en händelse med 10 dagars väderprognoser matas in och indexeras i en varm lagringscontainer som konfigurerats med en kvarhållningsperiod på 7 dagar. Efter sju dagar är förutsägelsen inte längre tillgänglig i det varma arkivet, men kan efterfrågas från kyla.
Om du aktiverar varmt lager i en befintlig miljö som redan har nyligen indexerade data i kall lagring, bör du tänka på att ditt varma lager inte kommer att fyllas i igen med dessa data.
Om du precis har aktiverat ett varmt arkiv och har problem med att visa dina senaste data i Utforskaren kan du tillfälligt växla bort frågor om varmt lager:

Kyllager

I det här avsnittet beskrivs Azure Storage-information som är relevant för Azure Time Series Insights Gen2.

En grundlig beskrivning av Azure Blob Storage finns i introduktionen till Storage-blobar.

Ditt kalllagringskonto

Azure Time Series Insights Gen2 behåller upp till två kopior av varje händelse i ditt Azure Storage-konto. En kopia lagrar händelser ordnade efter inmatningstid, vilket alltid tillåter åtkomst till händelser i en tidsbeställd sekvens. Med tiden skapar Azure Time Series Insights Gen2 också en ompartitionerad kopia av data för att optimera för högpresterande frågor.

Alla dina data lagras på obestämd tid i ditt Azure Storage-konto.

Varning

Begränsa inte offentlig Internetåtkomst till lagringskontot som används av Time Series Insights, annars bryts den nödvändiga anslutningen.

Skriva och redigera blobar

För att säkerställa frågeprestanda och datatillgänglighet ska du inte redigera eller ta bort blobbar som Azure Time Series Insights Gen2 skapar.

Åtkomst till kalllagerdata

Förutom att komma åt dina data från Azure Time Series Insights Explorer och Time Series Query-API:er kanske du också vill komma åt dina data direkt från Parquet-filerna som lagras i det kalla arkivet. Du kan till exempel läsa, transformera och rensa data i en Jupyter-anteckningsbok och sedan använda den för att träna din Azure Machine Learning-modell i samma Spark-arbetsflöde.

För att komma åt data direkt från ditt Azure Storage-konto behöver du läsbehörighet till det konto som används för att lagra dina Azure Time Series Insights Gen2-data. Du kan sedan läsa valda data baserat på skapandetiden för Parquet-filen i PT=Time mappen som beskrivs nedan i avsnittet Parquet-filformat . Mer information om hur du aktiverar läsåtkomst till ditt lagringskonto finns i Hantera åtkomst till dina lagringskontoresurser.

Databorttagning

Ta inte bort dina Azure Time Series Insights Gen2-filer. Hantera relaterade data inifrån Azure Time Series Insights Gen2.

Parquet-filformat och mappstruktur

Parquet är ett kolumnformat med öppen källkod som utformats för effektiv lagring och prestanda. Azure Time Series Insights Gen2 använder Parquet för att aktivera Time Series ID-baserade frågeprestanda i stor skala.

Mer information om filtypen Parquet finns i Parquet-dokumentationen.

Azure Time Series Insights Gen2 lagrar kopior av dina data på följande sätt:

Mappen PT=Time partitioneras efter inmatningstid och lagrar data ungefär efter ankomst. Dessa data bevaras med tiden och du kan komma åt dem direkt utanför Azure Time Series Insight Gen2, till exempel från dina Spark-notebook-filer. Tidsstämpeln <YYYYMMDDHHMMSSfff> motsvarar datainmatningstiden. <MinEventTimeStamp> och <MaxEventTimeStamp> motsvarar intervallet för händelsetidsstämplar som ingår i filen. Sökvägen och filnamnet formateras som:

V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<MinEventTimestamp>_<MaxEventTimestamp>_<TsiInternalSuffix>.parquet
Mapparna PT=Live och PT=Tsid innehåller en andra kopia av dina data, ompartitionerade för time series-frågeprestanda i stor skala. Dessa data är optimerade över tid och är inte statiska. Under ompartitioneringen kan vissa händelser finnas i flera blobar och blobnamnen kan ändras. Dessa mappar används av Azure Time Series Insights Gen2 och bör inte nås direkt. Du bör endast använda PT=Time för det ändamålet.