Úložiště dat

Poznámka

Služba Time Series Insights (TSI) už nebude po březnu 2025 podporována. Zvažte co nejdříve migraci stávajících prostředí TSI na alternativní řešení. Další informace o vyřazení a migraci najdete v naší dokumentaci.

Tento článek popisuje úložiště dat v Azure Time Series Insights Gen2. Zabývá se teplou a studenou teplotou, dostupností dat a osvědčenými postupy.

Zřizování

Při vytváření prostředí Azure Time Series Insights Gen2 máte následující možnosti:

  • Studené úložiště dat:
    • V předplatném a oblasti, které jste zvolili pro své prostředí, vytvořte nový prostředek služby Azure Storage.
    • Připojte již existující účet Služby Azure Storage. Tato možnost je dostupná jenom při nasazení ze šablony Azure Resource Manager a v Azure Portal se nezobrazuje.
  • Teplé úložiště dat:
    • Teplé úložiště je volitelné a je možné ho povolit nebo zakázat během zřizování nebo po jeho uplynutí. Pokud se rozhodnete povolit teplé úložiště později a ve vašem studeném úložišti už jsou data, přečtěte si následující část, kde najdete vysvětlení očekávaného chování. Dobu uchovávání dat teplého úložiště je možné nakonfigurovat na 7 až 31 dnů a podle potřeby ji také upravit.

Když je událost ingestována, indexuje se v teplém úložišti (pokud je povolená) i v úložišti cold store.

Přehled úložiště

Upozornění

Jako vlastník účtu úložiště Objektů blob v Azure, kde se nacházejí data studeného úložiště, máte úplný přístup ke všem datům v účtu. Tento přístup zahrnuje oprávnění k zápisu a odstranění. Neupravujte ani neodstraňovat data, která Azure Time Series Insights Gen2 zapisují, protože by to mohlo způsobit ztrátu dat.

Dostupnost dat

Azure Time Series Insights data oddílů a indexů Gen2 pro zajištění optimálního výkonu dotazů. Data jsou po indexování k dispozici pro dotazování z teplého úložiště (pokud je povolené) i studeného úložiště. Množství ingestovaných dat a míra propustnosti na oddíly můžou ovlivnit dostupnost. Projděte si omezení propustnosti zdroje událostí a osvědčené postupy pro zajištění nejlepšího výkonu. Můžete také nakonfigurovat upozornění na prodlevu, která bude upozorněna v případě, že ve vašem prostředí dochází k problémům se zpracováním dat.

Důležité

Než budou data dostupná prostřednictvím rozhraní API pro dotazy časových řad, může docházet k období až 60 sekund. Pokud zaznamenáte výraznou latenci nad 60 sekund, odešlete lístek podpory prostřednictvím Azure Portal.

Při přímém přístupu k souborům Parquet mimo Azure Time Series Insights Gen2 může docházet k období až 5 minut, než budou data k dispozici. Další informace najdete v části Formát souboru Parquet .

Teplé úložiště

Data ve vašem teplém úložišti jsou dostupná jenom prostřednictvím rozhraní API pro dotazy Time Series, průzkumníka tsi Azure Time Series Insights nebo konektoru Power BI. Dotazy teplého úložiště jsou zdarma a neexistuje žádná kvóta, ale platí omezení 30 souběžných požadavků.

Chování teplého úložiště

  • Pokud je tato možnost povolená, budou všechna data streamovaná do vašeho prostředí směrována do úložiště pro přípravu obsahu bez ohledu na časové razítko události. Upozorňujeme, že kanál pro příjem dat streamování je vytvořený pro streamování téměř v reálném čase a ingestování historických událostí se nepodporuje.

  • Doba uchovávání se počítá na základě toho, kdy byla událost indexována v teplém úložišti, nikoli podle časového razítka události. To znamená, že po uplynutí doby uchovávání už nebudou data v teplém úložišti k dispozici, a to ani v případě, že časové razítko události je určené pro budoucnost.

    • Příklad: Událost s předpovědí počasí na 10 dní se ingestuje a indexuje v teplém kontejneru úložiště s nakonfigurovanou 7denní dobou uchování. Po sedmi dnech už není předpověď dostupná v teplém úložišti, ale je možné ji dotazovat ze studeného období.
  • Pokud povolíte teplé úložiště v existujícím prostředí, které už má v studeném úložišti indexovaná nedávná data, mějte na paměti, že vaše teplé úložiště nebude znovu vyplněno tímto datem.

  • Pokud jste právě povolili teplé úložiště a dochází k problémům se zobrazením nedávných dat v Průzkumníkovi, můžete dotazy na teplé úložiště dočasně vypnout:

    Zákaz teplých dotazů

Studené úložiště

Tato část popisuje podrobnosti o službě Azure Storage relevantní pro Azure Time Series Insights Gen2.

Podrobný popis služby Azure Blob Storage najdete v úvodu k objektům blob služby Storage.

Váš účet studeného úložiště

Azure Time Series Insights Gen2 uchovává v účtu Azure Storage až dvě kopie každé události. Jedna kopie ukládá události seřazené podle času příjmu dat a vždy umožňuje přístup k událostem v časově seřazené posloupnosti. Postupem času vytvoří Azure Time Series Insights Gen2 také kopii dat, která se rozdělí na oddíly, aby byla optimalizována pro výkonné dotazy.

Všechna vaše data se trvale ukládají ve vašem účtu Azure Storage.

Upozornění

Neomezovat veřejný přístup k internetu na účet úložiště používaný službou Time Series Insights, jinak dojde k přerušení potřebného připojení.

Zápis a úpravy objektů blob

Pokud chcete zajistit výkon dotazů a dostupnost dat, neupravujte ani neodstrašujte žádné objekty blob, které Azure Time Series Insights Gen2 vytvoří.

Přístup k datům studeného úložiště

Kromě přístupu k datům z Azure Time Series Insights Exploreru a rozhraní API pro dotazy Time Series můžete také chtít přistupovat k datům přímo ze souborů Parquet uložených v úložišti cold store. Můžete například číst, transformovat a vyčistit data v poznámkovém bloku Jupyter a pak je použít k trénování modelu Azure Machine Learning ve stejném pracovním postupu Sparku.

Pokud chcete získat přístup k datům přímo z účtu Azure Storage, potřebujete přístup pro čtení k účtu, který se používá k ukládání dat Azure Time Series Insights Gen2. Pak můžete číst vybraná data na základě času vytvoření souboru Parquet, který se nachází ve PT=Time složce popsané níže v části Formát souboru Parquet . Další informace o povolení přístupu pro čtení k účtu úložiště najdete v tématu Správa přístupu k prostředkům účtu úložiště.

Odstranění dat

Neodstraňovat soubory Azure Time Series Insights Gen2. Související data můžete spravovat jenom z Azure Time Series Insights Gen2.

Formát souboru Parquet a struktura složek

Parquet je opensourcový formát sloupcových souborů navržený pro efektivní ukládání a výkon. Azure Time Series Insights Gen2 používá Parquet k povolení výkonu dotazů na základě ID time series ve velkém měřítku.

Další informace o typu souboru Parquet najdete v dokumentaci Parquet.

Azure Time Series Insights Gen2 ukládá kopie vašich dat následujícím způsobem:

  • Složka PT=Time je rozdělená na oddíly podle času příjmu dat a ukládá data zhruba v pořadí podle doručení. Tato data se v průběhu času uchovávají a můžete k ní přistupovat přímo z prostředí mimo Azure Time Series Insight Gen2, například z poznámkových bloků Sparku. Časové razítko <YYYYMMDDHHMMSSfff> odpovídá času příjmu dat. A <MinEventTimeStamp><MaxEventTimeStamp> odpovídají rozsahu časových razítek událostí obsažených v souboru. Cesta a název souboru jsou formátované takto:

    V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<MinEventTimestamp>_<MaxEventTimestamp>_<TsiInternalSuffix>.parquet

  • Složky PT=Live a PT=Tsid obsahují druhou kopii dat, která se rozdělí na oddíly pro výkon dotazů časových řad ve velkém měřítku. Tato data se v průběhu času optimalizují a nejsou statická. Během opětovného dělení můžou být některé události přítomné ve více objektech blob a názvy objektů blob se můžou změnit. Tyto složky používá Azure Time Series Insights Gen2 a neměli byste k těmto složkám přistupovat přímo. Měli byste je použít PT=Time jenom pro tento účel.

Poznámka

Data ve PT=Time složce před červnem 2021 můžou mít formát názvu souboru bez časových rozsahů událostí: V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<TsiInternalSuffix>.parquet. Interní formát souborů je stejný a soubory s oběma schématy pojmenování lze používat společně.

  • <YYYY> se mapuje na čtyřmístné znázornění roku.
  • <MM> se mapuje na dvoumístné znázornění měsíce.
  • Formát <YYYYMMDDHHMMSSfff> časových razítek mapovaných na čtyřmístný rok (YYYY), dvoumístný měsíc (MM), dvoumístný den (DD), dvoucifernou hodinu (HH), dvoumístnou minutu (MM), dvojcifernou sekundu (SS) a třímístnou milisekundu (fff).

Azure Time Series Insights Události Gen2 se mapují na obsah souboru Parquet následujícím způsobem:

  • Každá událost se mapuje na jeden řádek.
  • Každý řádek obsahuje sloupec časového razítka s časovým razítkem události. Vlastnost časového razítka nikdy nemá hodnotu null. Pokud ve zdroji událostí není vlastnost časového razítka zadaná do fronty, nastaví se jako výchozí čas události . Uložené časové razítko je vždy ve standardu UTC.
  • Každý řádek obsahuje sloupce ID časové řady (TSID) definované při vytváření prostředí Azure Time Series Insights Gen2. Název vlastnosti TSID obsahuje příponu _string .
  • Všechny ostatní vlastnosti odeslané jako telemetrická data se mapují na názvy sloupců, které končí _bool na (logická hodnota), _datetime (časové razítko), _long (dlouhé), _double (dvojité), _string (řetězec) nebo _dynamic (dynamické) v závislosti na typu vlastnosti. Další informace najdete v tématu Podporované datové typy.
  • Toto schéma mapování se vztahuje na první verzi formátu souboru, na který se odkazuje jako V=1 a který je uložený v základní složce se stejným názvem. S tím, jak se tato funkce vyvíjí, se toto schéma mapování může změnit a název odkazu se může zmenšovat.

Další kroky