Sdílet prostřednictvím


Úložiště dat

Poznámka:

Služba Time Series Insights bude vyřazena 7. července 2024. Zvažte migraci stávajících prostředí na alternativní řešení co nejdříve. Další informace o vyřazení a migraci najdete v naší dokumentaci.

Tento článek popisuje úložiště dat v Azure Time Series Insights Gen2. Zahrnuje teplé a studené, dostupnost dat a osvědčené postupy.

Zřizování

Při vytváření prostředí Azure Time Series Insights Gen2 máte následující možnosti:

  • Studené úložiště dat:
    • Vytvořte nový prostředek Azure Storage v předplatném a oblasti, které jste pro své prostředí zvolili.
    • Připojte existující účet Azure Storage. Tato možnost je dostupná jenom nasazením ze šablony Azure Resource Manageru a není viditelná na webu Azure Portal.
  • Teplé úložiště dat:
    • Teplé úložiště je volitelné a během zřizování nebo po jeho zřízení je možné ho povolit nebo zakázat. Pokud se později rozhodnete povolit teplé úložiště a ve studeném úložišti už jsou data, projděte si následující část a seznamte se s očekávaným chováním. Dobu uchovávání dat teplého úložiště je možné nakonfigurovat po dobu 7 až 31 dnů a dá se upravit také podle potřeby.

Když se událost ingestuje, indexuje se v teplém úložišti (pokud je povolená) i v studeném úložišti.

Úložiště – Přehled

Upozorňující

Jako vlastník účtu úložiště objektů blob v Azure, kde se nacházejí data studeného úložiště, máte úplný přístup ke všem datům v účtu. Tento přístup zahrnuje oprávnění k zápisu a odstranění. Neupravujte ani neodstraňovat data, která Azure Time Series Insights Gen2 zapisuje, protože to může způsobit ztrátu dat.

Dostupnost dat

Azure Time Series Insights Gen2 rozděluje a indexuje data pro optimální výkon dotazů. Data budou k dispozici pro dotaz z teplého (pokud jsou povolená) i z studeného úložiště po jejich indexování. Objem přijatých dat a rychlost propustnosti jednotlivých oddílů může ovlivnit dostupnost. Projděte si omezení propustnosti zdroje událostí a osvědčené postupy pro zajištění nejlepšího výkonu. Můžete také nakonfigurovat upozornění na prodlevu, která se má upozornit, pokud ve vašem prostředí dochází k problémům se zpracováním dat.

Důležité

Může docházet k období až 60 sekund, než budou data dostupná prostřednictvím rozhraní API dotazů časové řady. Pokud dojde k významné latenci nad 60 sekund, odešlete lístek podpory prostřednictvím webu Azure Portal.

Při přímém přístupu k souborům Parquet mimo Azure Time Series Insights Gen2 může docházet k období až 5 minut, než budou data k dispozici. Další informace najdete v části Formát souboru Parquet.

Teplé úložiště

Data ve vašem teplém úložišti jsou k dispozici pouze prostřednictvím rozhraní API dotazů time series, Průzkumníka TSI služby Azure Time Series Insights nebo konektoru Power BI. Dotazy v teplém úložišti jsou bezplatné a neexistuje žádná kvóta, ale existuje limit 30 souběžných požadavků.

Chování teplého úložiště

  • Pokud je tato možnost povolená, budou všechna data streamovaná do vašeho prostředí směrována do vašeho teplého úložiště bez ohledu na časové razítko události. Všimněte si, že kanál příjmu dat streamování je vytvořený pro streamování téměř v reálném čase a ingestování historických událostí se nepodporuje.

  • Doba uchovávání se vypočítá na základě toho, kdy byla událost indexována v teplém úložišti, nikoli na časové razítko události. To znamená, že data už nejsou dostupná v teplém úložišti po uplynutí doby uchovávání, i když je časové razítko události pro budoucnost.

    • Příklad: událost s 10denními předpověďmi počasí se ingestuje a indexuje v kontejneru teplého úložiště nakonfigurovaného se 7denní dobou uchovávání. Po sedmi dnech už není předpověď přístupná v teplém úložišti, ale může být dotazována z chladu.
  • Pokud povolíte teplé úložiště v existujícím prostředí, které už má nedávno indexovaná data v studeném úložišti, mějte na paměti, že vaše teplé úložiště nebude znovu vyplněno daty.

  • Pokud jste právě povolili teplé úložiště a dochází k problémům se zobrazením nedávných dat v Průzkumníku, můžete dočasně vypnout dotazy teplého úložiště:

    Zakázání teplých dotazů

Úložiště málo používaných dat

Tato část popisuje podrobnosti o službě Azure Storage, které jsou relevantní pro Azure Time Series Insights Gen2.

Podrobný popis služby Azure Blob Storage najdete v úvodu k objektům blob služby Storage.

Váš účet studeného úložiště

Azure Time Series Insights Gen2 uchovává až dvě kopie každé události ve vašem účtu Azure Storage. Jedna kopie ukládá události seřazené podle času příjmu dat, takže vždy umožňuje přístup k událostem v pořadí podle času. Azure Time Series Insights Gen2 v průběhu času také vytvoří repartitioned copy of the data to optimize for performant queries.

Všechna vaše data se ukládají do vašeho účtu Azure Storage neomezeně dlouho.

Upozorňující

Neomezovat přístup k veřejnému internetu k účtu úložiště používanému službou Time Series Insights nebo dojde k přerušení potřebného připojení.

Psaní a úpravy objektů blob

Pokud chcete zajistit výkon dotazů a dostupnost dat, neupravujte ani neodstraňovat žádné objekty blob, které Azure Time Series Insights Gen2 vytváří.

Přístup k datům studeného úložiště

Kromě přístupu k datům z Průzkumníka služby Azure Time Series Insights a rozhraní API pro dotazy Time Series můžete také chtít získat přístup k datům přímo ze souborů Parquet uložených v studeném úložišti. Můžete například číst, transformovat a vyčistit data v poznámkovém bloku Jupyter a pak je použít k trénování modelu Azure Machine Learning ve stejném pracovním postupu Sparku.

Pokud chcete získat přístup k datům přímo z účtu Azure Storage, potřebujete ke účtu, který se používá k ukládání dat Azure Time Series Insights Gen2, přístup pro čtení. Pak můžete číst vybraná data na základě času vytvoření souboru Parquet umístěného PT=Time ve složce popsané níže v části Formát souboru Parquet. Další informace o povolení přístupu pro čtení k účtu úložiště najdete v tématu Správa přístupu k prostředkům účtu úložiště.

Odstranění dat

Neodstraňovat soubory Azure Time Series Insights Gen2 Správa souvisejících dat pouze z Azure Time Series Insights Gen2

Formát souborů Parquet a struktura složek

Parquet je opensourcový formát sloupcového souboru navržený pro efektivní ukládání a výkon. Azure Time Series Insights Gen2 používá Parquet k povolení výkonu dotazů založených na ID časové řady ve velkém měřítku.

Další informace o typu souboru Parquet najdete v dokumentaci k Parquet.

Azure Time Series Insights Gen2 ukládá kopie vašich dat následujícím způsobem:

  • Složka PT=Time je rozdělena podle času příjmu dat a ukládá data zhruba v pořadí doručení. Tato data se v průběhu času zachovají a můžete k němu přistupovat přímo z prostředí Mimo Azure Time Series Insight Gen2, například z poznámkových bloků Sparku. Časové razítko <YYYYMMDDHHMMSSfff> odpovídá času příjmu dat. Rozsah <MinEventTimeStamp> časových razítek událostí obsažených v souboru a <MaxEventTimeStamp> odpovídá rozsahu časových razítek událostí. Cesta a název souboru jsou formátovány takto:

    V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<MinEventTimestamp>_<MaxEventTimestamp>_<TsiInternalSuffix>.parquet

  • Složky PT=Live obsahují PT=Tsid druhou kopii dat, která se znovu vytvoří pro výkon dotazů časových řad ve velkém měřítku. Tato data jsou v průběhu času optimalizovaná a nejsou statická. Během opětovného dělení můžou být některé události přítomné v několika objektech blob a názvy objektů blob se můžou změnit. Tyto složky používají Azure Time Series Insights Gen2 a neměly by být přístupné přímo; pro tento účel byste měli použít PT=Time pouze.

Poznámka:

Data ve PT=Time složce před červnem 2021 mohou mít formát názvu souboru bez časových rozsahů událostí: V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<TsiInternalSuffix>.parquet. Interní formát souboru je stejný a soubory s oběma schématy pojmenování lze použít společně.

  • <YYYY> se mapuje na čtyřmístnou reprezentaci roku.
  • <MM> se mapuje na dvoucifernou reprezentaci měsíce.
  • Formát <YYYYMMDDHHMMSSfff> časových razítek mapovaných na čtyřmístný rok (YYYY), dvouciferný měsíc (MM), dvouciferný den (DD), dvouciferné hodiny (), dvouciferné minuty (HHMM), dvouciferné sekundy (SS) a třímístné milisekundy (fff).

Události Azure Time Series Insights Gen2 se mapují na obsah souboru Parquet následujícím způsobem:

  • Každá událost se mapuje na jeden řádek.
  • Každý řádek obsahuje sloupec časového razítka s časovým razítkem události. Vlastnost časového razítka není nikdy null. Pokud vlastnost časového razítka není zadaná ve zdroji událostí, ve výchozím nastavení se událostí zadává do fronty. Uložené časové razítko je vždy ve standardu UTC.
  • Každý řádek obsahuje sloupce ID časové řady (TSID) definované při vytváření prostředí Azure Time Series Insights Gen2. Název vlastnosti TSID zahrnuje příponu _string .
  • Všechny ostatní vlastnosti odeslané jako telemetrická data se mapují na názvy sloupců, které končí _bool (logická hodnota), _datetime (časové razítko), (long), _double_long (double), _string (string) nebo _dynamic (dynamické) v závislosti na typu vlastnosti. Další informace najdete v tématu Podporované datové typy.
  • Toto schéma mapování se vztahuje na první verzi formátu souboru, na který odkazuje V=1 a je uloženo v základní složce se stejným názvem. S tím, jak se tato funkce vyvíjí, se toto schéma mapování může změnit a zvýšit název odkazu.

Další kroky