Úložiště dat
Poznámka:
Služba Time Series Insights bude vyřazena 7. července 2024. Zvažte migraci stávajících prostředí na alternativní řešení co nejdříve. Další informace o vyřazení a migraci najdete v naší dokumentaci.
Tento článek popisuje úložiště dat v Azure Time Series Insights Gen2. Zahrnuje teplé a studené, dostupnost dat a osvědčené postupy.
Zřizování
Při vytváření prostředí Azure Time Series Insights Gen2 máte následující možnosti:
- Studené úložiště dat:
- Vytvořte nový prostředek Azure Storage v předplatném a oblasti, které jste pro své prostředí zvolili.
- Připojte existující účet Azure Storage. Tato možnost je dostupná jenom nasazením ze šablony Azure Resource Manageru a není viditelná na webu Azure Portal.
- Teplé úložiště dat:
- Teplé úložiště je volitelné a během zřizování nebo po jeho zřízení je možné ho povolit nebo zakázat. Pokud se později rozhodnete povolit teplé úložiště a ve studeném úložišti už jsou data, projděte si následující část a seznamte se s očekávaným chováním. Dobu uchovávání dat teplého úložiště je možné nakonfigurovat po dobu 7 až 31 dnů a dá se upravit také podle potřeby.
Když se událost ingestuje, indexuje se v teplém úložišti (pokud je povolená) i v studeném úložišti.
Upozorňující
Jako vlastník účtu úložiště objektů blob v Azure, kde se nacházejí data studeného úložiště, máte úplný přístup ke všem datům v účtu. Tento přístup zahrnuje oprávnění k zápisu a odstranění. Neupravujte ani neodstraňovat data, která Azure Time Series Insights Gen2 zapisuje, protože to může způsobit ztrátu dat.
Dostupnost dat
Azure Time Series Insights Gen2 rozděluje a indexuje data pro optimální výkon dotazů. Data budou k dispozici pro dotaz z teplého (pokud jsou povolená) i z studeného úložiště po jejich indexování. Objem přijatých dat a rychlost propustnosti jednotlivých oddílů může ovlivnit dostupnost. Projděte si omezení propustnosti zdroje událostí a osvědčené postupy pro zajištění nejlepšího výkonu. Můžete také nakonfigurovat upozornění na prodlevu, která se má upozornit, pokud ve vašem prostředí dochází k problémům se zpracováním dat.
Důležité
Může docházet k období až 60 sekund, než budou data dostupná prostřednictvím rozhraní API dotazů časové řady. Pokud dojde k významné latenci nad 60 sekund, odešlete lístek podpory prostřednictvím webu Azure Portal.
Při přímém přístupu k souborům Parquet mimo Azure Time Series Insights Gen2 může docházet k období až 5 minut, než budou data k dispozici. Další informace najdete v části Formát souboru Parquet.
Teplé úložiště
Data ve vašem teplém úložišti jsou k dispozici pouze prostřednictvím rozhraní API dotazů time series, Průzkumníka TSI služby Azure Time Series Insights nebo konektoru Power BI. Dotazy v teplém úložišti jsou bezplatné a neexistuje žádná kvóta, ale existuje limit 30 souběžných požadavků.
Chování teplého úložiště
Pokud je tato možnost povolená, budou všechna data streamovaná do vašeho prostředí směrována do vašeho teplého úložiště bez ohledu na časové razítko události. Všimněte si, že kanál příjmu dat streamování je vytvořený pro streamování téměř v reálném čase a ingestování historických událostí se nepodporuje.
Doba uchovávání se vypočítá na základě toho, kdy byla událost indexována v teplém úložišti, nikoli na časové razítko události. To znamená, že data už nejsou dostupná v teplém úložišti po uplynutí doby uchovávání, i když je časové razítko události pro budoucnost.
- Příklad: událost s 10denními předpověďmi počasí se ingestuje a indexuje v kontejneru teplého úložiště nakonfigurovaného se 7denní dobou uchovávání. Po sedmi dnech už není předpověď přístupná v teplém úložišti, ale může být dotazována z chladu.
Pokud povolíte teplé úložiště v existujícím prostředí, které už má nedávno indexovaná data v studeném úložišti, mějte na paměti, že vaše teplé úložiště nebude znovu vyplněno daty.
Pokud jste právě povolili teplé úložiště a dochází k problémům se zobrazením nedávných dat v Průzkumníku, můžete dočasně vypnout dotazy teplého úložiště:
Úložiště málo používaných dat
Tato část popisuje podrobnosti o službě Azure Storage, které jsou relevantní pro Azure Time Series Insights Gen2.
Podrobný popis služby Azure Blob Storage najdete v úvodu k objektům blob služby Storage.
Váš účet studeného úložiště
Azure Time Series Insights Gen2 uchovává až dvě kopie každé události ve vašem účtu Azure Storage. Jedna kopie ukládá události seřazené podle času příjmu dat, takže vždy umožňuje přístup k událostem v pořadí podle času. Azure Time Series Insights Gen2 v průběhu času také vytvoří repartitioned copy of the data to optimize for performant queries.
Všechna vaše data se ukládají do vašeho účtu Azure Storage neomezeně dlouho.
Upozorňující
Neomezovat přístup k veřejnému internetu k účtu úložiště používanému službou Time Series Insights nebo dojde k přerušení potřebného připojení.
Psaní a úpravy objektů blob
Pokud chcete zajistit výkon dotazů a dostupnost dat, neupravujte ani neodstraňovat žádné objekty blob, které Azure Time Series Insights Gen2 vytváří.
Přístup k datům studeného úložiště
Kromě přístupu k datům z Průzkumníka služby Azure Time Series Insights a rozhraní API pro dotazy Time Series můžete také chtít získat přístup k datům přímo ze souborů Parquet uložených v studeném úložišti. Můžete například číst, transformovat a vyčistit data v poznámkovém bloku Jupyter a pak je použít k trénování modelu Azure Machine Learning ve stejném pracovním postupu Sparku.
Pokud chcete získat přístup k datům přímo z účtu Azure Storage, potřebujete ke účtu, který se používá k ukládání dat Azure Time Series Insights Gen2, přístup pro čtení. Pak můžete číst vybraná data na základě času vytvoření souboru Parquet umístěného PT=Time
ve složce popsané níže v části Formát souboru Parquet. Další informace o povolení přístupu pro čtení k účtu úložiště najdete v tématu Správa přístupu k prostředkům účtu úložiště.
Odstranění dat
Neodstraňovat soubory Azure Time Series Insights Gen2 Správa souvisejících dat pouze z Azure Time Series Insights Gen2
Formát souborů Parquet a struktura složek
Parquet je opensourcový formát sloupcového souboru navržený pro efektivní ukládání a výkon. Azure Time Series Insights Gen2 používá Parquet k povolení výkonu dotazů založených na ID časové řady ve velkém měřítku.
Další informace o typu souboru Parquet najdete v dokumentaci k Parquet.
Azure Time Series Insights Gen2 ukládá kopie vašich dat následujícím způsobem:
Složka
PT=Time
je rozdělena podle času příjmu dat a ukládá data zhruba v pořadí doručení. Tato data se v průběhu času zachovají a můžete k němu přistupovat přímo z prostředí Mimo Azure Time Series Insight Gen2, například z poznámkových bloků Sparku. Časové razítko<YYYYMMDDHHMMSSfff>
odpovídá času příjmu dat. Rozsah<MinEventTimeStamp>
časových razítek událostí obsažených v souboru a<MaxEventTimeStamp>
odpovídá rozsahu časových razítek událostí. Cesta a název souboru jsou formátovány takto:V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<MinEventTimestamp>_<MaxEventTimestamp>_<TsiInternalSuffix>.parquet
Složky
PT=Live
obsahujíPT=Tsid
druhou kopii dat, která se znovu vytvoří pro výkon dotazů časových řad ve velkém měřítku. Tato data jsou v průběhu času optimalizovaná a nejsou statická. Během opětovného dělení můžou být některé události přítomné v několika objektech blob a názvy objektů blob se můžou změnit. Tyto složky používají Azure Time Series Insights Gen2 a neměly by být přístupné přímo; pro tento účel byste měli použítPT=Time
pouze.
Poznámka:
Data ve PT=Time
složce před červnem 2021 mohou mít formát názvu souboru bez časových rozsahů událostí: V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<TsiInternalSuffix>.parquet
. Interní formát souboru je stejný a soubory s oběma schématy pojmenování lze použít společně.
<YYYY>
se mapuje na čtyřmístnou reprezentaci roku.<MM>
se mapuje na dvoucifernou reprezentaci měsíce.- Formát
<YYYYMMDDHHMMSSfff>
časových razítek mapovaných na čtyřmístný rok (YYYY
), dvouciferný měsíc (MM
), dvouciferný den (DD
), dvouciferné hodiny (), dvouciferné minuty (HH
MM
), dvouciferné sekundy (SS
) a třímístné milisekundy (fff
).
Události Azure Time Series Insights Gen2 se mapují na obsah souboru Parquet následujícím způsobem:
- Každá událost se mapuje na jeden řádek.
- Každý řádek obsahuje sloupec časového razítka s časovým razítkem události. Vlastnost časového razítka není nikdy null. Pokud vlastnost časového razítka není zadaná ve zdroji událostí, ve výchozím nastavení se událostí zadává do fronty. Uložené časové razítko je vždy ve standardu UTC.
- Každý řádek obsahuje sloupce ID časové řady (TSID) definované při vytváření prostředí Azure Time Series Insights Gen2. Název vlastnosti TSID zahrnuje příponu
_string
. - Všechny ostatní vlastnosti odeslané jako telemetrická data se mapují na názvy sloupců, které končí
_bool
(logická hodnota),_datetime
(časové razítko), (long),_double
_long
(double),_string
(string) nebo_dynamic
(dynamické) v závislosti na typu vlastnosti. Další informace najdete v tématu Podporované datové typy. - Toto schéma mapování se vztahuje na první verzi formátu souboru, na který odkazuje V=1 a je uloženo v základní složce se stejným názvem. S tím, jak se tato funkce vyvíjí, se toto schéma mapování může změnit a zvýšit název odkazu.
Další kroky
Přečtěte si o modelování dat.
Naplánujte prostředí Azure Time Series Insights Gen2.
Váš názor
https://aka.ms/ContentUserFeedback.
Připravujeme: V průběhu roku 2024 budeme postupně vyřazovat problémy z GitHub coby mechanismus zpětné vazby pro obsah a nahrazovat ho novým systémem zpětné vazby. Další informace naleznete v tématu:Odeslat a zobrazit názory pro