Magazyn danych

Artykuł
06/01/2023

Uwaga

Usługa Time Series Insights (TSI) nie będzie już obsługiwana po marcu 2025 r. Rozważ migrację istniejących środowisk TSI do alternatywnych rozwiązań tak szybko, jak to możliwe. Aby uzyskać więcej informacji na temat wycofywania i migracji, odwiedź naszą dokumentację.

W tym artykule opisano magazyn danych w usłudze Azure Time Series Insights Gen2. Obejmuje ona ciepłe i zimne, dostępność danych i najlepsze rozwiązania.

Inicjowanie obsługi

Podczas tworzenia środowiska Azure Time Series Insights Gen2 dostępne są następujące opcje:

Magazyn zimnych danych:
- Utwórz nowy zasób usługi Azure Storage w subskrypcji i regionie wybranym dla danego środowiska.
- Dołącz istniejące konto usługi Azure Storage. Ta opcja jest dostępna tylko przez wdrożenie z szablonu usługi Azure Resource Manager i nie jest widoczna w Azure Portal.
Ciepły magazyn danych:
- Ciepły magazyn jest opcjonalny i może być włączony lub wyłączony w czasie aprowizacji lub po jego zakończeniu. Jeśli zdecydujesz się na włączenie ciepłego magazynu w późniejszym czasie i istnieją już dane w magazynie zimnym, zapoznaj się z tą sekcją poniżej, aby zrozumieć oczekiwane zachowanie. Czas przechowywania danych magazynu ciepłego można skonfigurować przez 7 do 31 dni, a można to również dostosować zgodnie z potrzebami.

Po pozyskiwaniu zdarzenia jest indeksowany zarówno w ciepłym magazynie (jeśli jest włączony) i w zimnym magazynie.

Ostrzeżenie

Jako właściciel konta usługi Azure Blob Storage, na którym znajdują się dane magazynu zimnego, masz pełny dostęp do wszystkich danych na koncie. Ten dostęp obejmuje uprawnienia do zapisu i usuwania. Nie edytuj ani nie usuwaj danych, które Azure Time Series Insights Gen2 zapisu, ponieważ mogą to spowodować utratę danych.

Dostępność danych

Azure Time Series Insights partycje i indeksy danych gen2 w celu uzyskania optymalnej wydajności zapytań. Dane stają się dostępne do wykonywania zapytań zarówno z ciepłego (jeśli włączono) i magazynu zimnego po jego indeksie. Ilość pozyskanych danych, a szybkość przepływności na partycję może mieć wpływ na dostępność. Zapoznaj się z ograniczeniami przepływności źródła zdarzeń i najlepszymi rozwiązaniami , aby uzyskać najlepszą wydajność. Możesz również skonfigurować alert opóźnienia, aby otrzymywać powiadomienia, jeśli w twoim środowisku występują problemy z przetwarzaniem danych.

Ważne

Może wystąpić okres do 60 sekund, zanim dane staną się dostępne za pośrednictwem interfejsów API zapytań szeregów czasowych. Jeśli wystąpi znaczne opóźnienie przekraczające 60 sekund, prześlij bilet pomocy technicznej za pośrednictwem Azure Portal.

Może wystąpić okres do 5 minut, zanim dane staną się dostępne podczas bezpośredniego uzyskiwania dostępu do plików Parquet poza Azure Time Series Insights Gen2. Aby uzyskać więcej informacji, zobacz sekcję Format pliku Parquet .

Ciepły sklep

Dane w magazynie ciepłym są dostępne tylko za pośrednictwem interfejsów API zapytań szeregów czasowych, eksploratora usługi TSI Azure Time Series Insights lub łącznika usługi Power BI. Zapytania dotyczące magazynu ciepłego są bezpłatne i nie ma limitu przydziału, ale istnieje limit 30 równoczesnych żądań.

Zachowanie ciepłego sklepu

Po włączeniu wszystkie dane przesyłane strumieniowo do środowiska będą kierowane do ciepłego magazynu, niezależnie od sygnatury czasowej zdarzenia. Należy pamiętać, że potok pozyskiwania przesyłania strumieniowego jest tworzony na potrzeby przesyłania strumieniowego niemal w czasie rzeczywistym, a pozyskiwanie zdarzeń historycznych nie jest obsługiwane.
Okres przechowywania jest obliczany na podstawie czasu indeksowania zdarzenia w ciepłym magazynie, a nie sygnatury czasowej zdarzenia. Oznacza to, że dane nie są już dostępne w ciepłym magazynie po upływie okresu przechowywania, nawet jeśli sygnatura czasowa zdarzenia jest przeznaczona dla przyszłości.
- Przykład: zdarzenie z 10-dniowymi prognozami pogody jest pozyskiwane i indeksowane w ciepłym kontenerze magazynu skonfigurowanym z 7-dniowym okresem przechowywania. Po siedmiu dniach przewidywanie nie jest już dostępne w ciepłym magazynie, ale może być odpytywane z chłodu.
Jeśli włączysz ciepły magazyn w istniejącym środowisku, które ma już ostatnie dane indeksowane w magazynie zimnym, pamiętaj, że ciepły magazyn nie będzie wypełniony tymi danymi.
Jeśli po prostu włączono ciepły magazyn i występują problemy z wyświetlaniem najnowszych danych w Eksploratorze, możesz tymczasowo przełączać zapytania o ciepły magazyn wył.:

Zimny magazyn

W tej sekcji opisano szczegóły usługi Azure Storage dotyczące Azure Time Series Insights Gen2.

Aby zapoznać się z dokładnym opisem usługi Azure Blob Storage, przeczytaj wprowadzenie do obiektów blob usługi Storage.

Konto magazynu zimnego

Azure Time Series Insights Gen2 zachowuje maksymalnie dwie kopie każdego zdarzenia na koncie usługi Azure Storage. Jedna kopia przechowuje zdarzenia uporządkowane według czasu pozyskiwania, zawsze zezwalając na dostęp do zdarzeń w kolejności uporządkowanej czasowo. W czasie Azure Time Series Insights Gen2 tworzy również ponownie partycjonowaną kopię danych w celu zoptymalizowania pod kątem wykonywania zapytań.

Wszystkie dane są przechowywane przez czas nieokreślony na koncie usługi Azure Storage.

Ostrzeżenie

Nie ograniczaj publicznego dostępu do Internetu do konta magazynu używanego przez usługę Time Series Insights lub wymagane połączenie zostanie przerwane.

Pisanie i edytowanie obiektów blob

Aby zapewnić wydajność zapytań i dostępność danych, nie edytuj ani nie usuwaj żadnych obiektów blob utworzonych Azure Time Series Insights Gen2.

Uzyskiwanie dostępu do danych magazynu zimnego

Oprócz uzyskiwania dostępu do danych z interfejsów API eksploratora Azure Time Series Insights i zapytań szeregów czasowych możesz również uzyskać dostęp do danych bezpośrednio z plików Parquet przechowywanych w magazynie zimnym. Na przykład możesz odczytywać, przekształcać i czyścić dane w notesie Jupyter, a następnie użyć go do trenowania modelu usługi Azure Machine Learning w tym samym przepływie pracy platformy Spark.

Aby uzyskać dostęp do danych bezpośrednio z konta usługi Azure Storage, musisz mieć dostęp do odczytu do konta używanego do przechowywania danych Azure Time Series Insights Gen2. Następnie możesz odczytać wybrane dane na podstawie czasu utworzenia pliku Parquet znajdującego się w folderze opisanym poniżej w PT=Time sekcji Format pliku Parquet . Aby uzyskać więcej informacji na temat włączania dostępu do odczytu do konta magazynu, zobacz Zarządzanie dostępem do zasobów konta magazynu.

Usunięcie danych

Nie usuwaj plików Azure Time Series Insights Gen2. Zarządzaj powiązanymi danymi tylko z poziomu Azure Time Series Insights Gen2.

Format pliku Parquet i struktura folderów

Parquet to format pliku kolumnowego typu open source zaprojektowany pod kątem wydajnego przechowywania i wydajności. Azure Time Series Insights Gen2 używa Parquet do włączenia wydajności zapytań opartych na identyfikatorach szeregów czasowych na dużą skalę.

Aby uzyskać więcej informacji na temat typu pliku Parquet, przeczytaj dokumentację Parquet.

Azure Time Series Insights Gen2 przechowuje kopie danych w następujący sposób:

Folder PT=Time jest partycjonowany przez czas pozyskiwania i przechowuje dane w przybliżeniu w kolejności przybycia. Te dane są zachowywane wraz z upływem czasu i można uzyskiwać do niego bezpośredni dostęp spoza usługi Azure Time Series Insight Gen2, na przykład z notesów spark. Sygnatura czasowa <YYYYMMDDHHMMSSfff> odpowiada czasowi pozyskiwania danych. Element <MinEventTimeStamp> i <MaxEventTimeStamp> odpowiada zakresowi sygnatur czasowych zdarzeń uwzględnionych w pliku. Ścieżka i nazwa pliku są sformatowane jako:

V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<MinEventTimestamp>_<MaxEventTimestamp>_<TsiInternalSuffix>.parquet
Foldery PT=Live i PT=Tsid zawierają drugą kopię danych, ponownie partycjonowaną na potrzeby wydajności zapytań szeregów czasowych na dużą skalę. Te dane są zoptymalizowane w czasie i nie są statyczne. Podczas ponownego partycjonowania niektóre zdarzenia mogą być obecne w wielu obiektach blob, a nazwy obiektów blob mogą ulec zmianie. Te foldery są używane przez Azure Time Series Insights Gen2 i nie powinny być dostępne bezpośrednio. W tym celu należy używać PT=Time tylko tych folderów.