Penyimpanan Data
Catatan
Layanan Time Series Insights akan dihentikan pada 7 Juli 2024. Pertimbangkan untuk memigrasikan lingkungan yang ada ke solusi alternatif sesegera mungkin. Untuk informasi selengkapnya tentang penghentian dan migrasi, kunjungi dokumentasi kami.
Artikel ini menjelaskan penyimpanan data di Azure Time Series Insights Gen2. Artikel ini mencakup hangat dan dingin, ketersediaan data, dan praktik terbaik.
Penyediaan
Saat membuat lingkungan Azure Time Series Insights Gen2, Anda memiliki opsi berikut:
- Penyimpanan data dingin:
- Membuat sumber daya Azure Storage baru di langganan dan wilayah yang Anda pilih untuk lingkungan Anda.
- Melampirkan akun Azure Storage yang sudah ada sebelumnya. Opsi ini hanya tersedia dengan menyebarkan templat Azure Resource Manager, dan tidak terlihat di portal Microsoft Azure.
- Penyimpanan data hangat:
- Penyimpanan hangat bersifat opsional, dan dapat diaktifkan atau dinonaktifkan selama atau setelah waktu provisi. Jika Anda memutuskan untuk mengaktifkan penyimpanan hangat di lain waktu dan sudah ada data di penyimpanan dingin, tinjau bagian ini di bawah untuk memahami perilaku yang diharapkan. Waktu retensi data penyimpanan yang hangat dapat dikonfigurasi selama 7 hingga 31 hari, dan waktu ini juga dapat disesuaikan sesuai kebutuhan.
Saat kejadian diserap, acara diindekskan di penyimpanan hangat (jika diaktifkan) dan penyimpanan dingin.
Peringatan
Sebagai pemilik akun penyimpanan Blob Azure tempat data penyimpanan dingin berada, Anda memiliki akses penuh ke semua data di akun. Akses ini mencakup izin menulis dan menghapus. Jangan mengedit atau menghapus data yang ditulis Azure Time Series Insights Gen2 karena dapat menyebabkan kehilangan data.
Ketersediaan data
Azure Time Series Insights Gen2 mempartisi dan mengindeks data untuk performa kueri yang optimal. Data menjadi tersedia untuk kueri dari penyimpanan hangat (jika diaktifkan) dan dingin setelah diindeks. Jumlah data yang sedang diserap dan tingkat throughput per partisi dapat memengaruhi ketersediaan. Tinjau batasan throughput sumber kejadian dan praktik terbaik untuk performa terbaik. Anda juga dapat mengonfigurasi pemberitahuan jeda untuk diberi tahu jika lingkungan Anda mengalami masalah pemrosesan data.
Penting
Anda mungkin mengalami periode hingga 60 detik sebelum data tersedia melalui API Kueri Seri Waktu. Jika Anda mengalami latensi signifikan di atas 60 detik, kirimkan tiket dukungan melalui portal Microsoft Azure.
Anda mungkin mengalami periode hingga 5 menit sebelum data tersedia saat mengakses file Parquet secara langsung di luar Azure Time Series Insights Gen2. Lihat bagian Format file Parquet untuk mengetahui informasi selengkapnya.
Penyimpanan hangat
Data di penyimpanan hangat Anda hanya tersedia melalui API Kueri Seri Waktu, Penjelajah TSI Azure Time Series Insights, atau Konektor Power BI. Kueri penyimpanan hangat gratis dan tidak ada kuota, tetapi ada batas 30 permintaan secara bersamaan.
Perilaku penyimpanan hangat
Saat diaktifkan, semua data yang dialirkan ke lingkungan Anda akan dirutekan ke penyimpanan hangat Anda, terlepas dari tanda waktu kejadian. Perhatikan bahwa alur konsumsi streaming dibangun untuk streaming secara hampir real time dan mengonsumsi kejadian riwayat tidak didukung.
Periode retensi dihitung berdasarkan kapan kejadian diindekskan di penyimpanan hangat, bukan tanda waktu peristiwa. Hal ini berarti bahwa data tidak lagi tersedia di penyimpanan hangat setelah periode retensi berlalu, bahkan jika tanda waktu kejadian adalah untuk masa depan.
- Contoh: kejadian dengan prakiraan cuaca 10 hari diserap dan diindekskan dalam kontainer penyimpanan hangat yang dikonfigurasi dengan periode retensi 7 hari. Setelah tujuh hari, prediksi tidak lagi dapat diakses di penyimpanan hangat, tetapi dapat dikueri dari penyimpanan dingin.
Jika Anda mengaktifkan penyimpanan hangat pada lingkungan yang sudah ada yang sudah memiliki data terbaru yang diindeks dalam penyimpanan dingin, perhatikan bahwa penyimpanan hangat tidak akan diisi ulang dengan data ini.
Jika Anda baru saja mengaktifkan penyimpanan hangat dan mengalami masalah saat melihat data terbaru di Penjelajah, Anda dapat menghidupkan/mematikan kueri penyimpanan hangat untuk sementara waktu:
Penyimpanan dingin
Bagian ini menjelaskan detail Azure Storage yang relevan dengan Azure Time Series Insights Gen2.
Untuk deskripsi menyeluruh tentang penyimpanan Blob Azure, baca Pendahuluan blob penyimpanan.
Akun penyimpanan dingin Anda
Azure Time Series Insights Gen2 menyimpan hingga dua salinan setiap kejadian di akun Azure Storage Anda. Satu salinan menyimpan kejadian yang diurutkan berdasarkan waktu konsumsi, selalu mengizinkan akses ke kejadian dalam susunan yang diurutkan waktu. Seiring waktu, Azure Time Series Insights Gen2 juga membuat salinan data yang dipartisi ulang untuk mengoptimalkan kueri performa.
Semua data Anda disimpan tanpa batas waktu di akun Azure Storage.
Peringatan
Jangan batasi akses Internet Publik ke akun penyimpanan yang digunakan oleh Azure Time Series Insights atau koneksi yang diperlukan akan rusak.
Menulis dan mengedit blob
Untuk memastikan performa kueri dan ketersediaan data, jangan mengedit atau menghapus blob apa pun yang dibuat Azure Time Series Insights Gen2.
Mengakses data penyimpanan dingin
Selain mengakses data dari Azure Time Series Insights Explorer dan API Kueri Seri Waktu, Anda mungkin juga ingin mengakses data langsung dari file Parquet yang disimpan di penyimpanan dingin. Misalnya, Anda dapat membaca, mengubah, dan membersihkan data di buku catatan Jupyter, lalu menggunakan data untuk melatih model Azure Machine Learning dalam alur kerja Spark yang sama.
Untuk mengakses data langsung dari akun Azure Storage, Anda memerlukan akses baca ke akun yang digunakan untuk menyimpan data Azure Time Series Insights Gen2. Anda kemudian dapat membaca data yang dipilih berdasarkan waktu pembuatan file Parquet yang terletak di folder PT=Time
yang dijelaskan di bawah ini di bagian Format file Parquet. Untuk mengetahui informasi selengkapnya tentang mengaktifkan akses baca ke akun penyimpanan Anda, lihat Mengelola akses ke sumber daya akun penyimpanan Anda.
Penghapusan data
Jangan hapus file Azure Time Series Insights Gen2 Anda. Kelola data terkait hanya dari dalam Azure Time Series Insights Gen2.
Format file Parquet dan struktur folder
Parquet adalah format file kolom sumber terbuka yang didesain untuk penyimpanan dan performa yang efisien. Azure Time Series Insights Gen2 menggunakan Parquet untuk mengaktifkan performa kueri berbasis ID Seri Waktu dalam skala.
Untuk mengetahui informasi selengkapnya tentang jenis file Parquet, baca Dokumentasi Parquet.
Azure Time Series Insights Gen2 menyimpan salinan data Anda sebagai berikut:
Folder
PT=Time
dipartisi oleh waktu konsumsi dan menyimpan data secara kasar dalam urutan kedatangan. Data ini dipertahankan dari waktu ke waktu dan dapat langsung mengakses data dari luar Azure Time Series Insight Gen2, seperti dari buku catatan Spark Anda. Tanda waktu<YYYYMMDDHHMMSSfff>
sesuai dengan waktu konsumsi data.<MinEventTimeStamp>
dan<MaxEventTimeStamp>
sesuai dengan rentang tanda waktu kejadian yang disertakan dalam file. Jalur dan filename diformat sebagai:V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<MinEventTimestamp>_<MaxEventTimestamp>_<TsiInternalSuffix>.parquet
Folder
PT=Live
danPT=Tsid
berisi salinan kedua data Anda, dipartisi ulang untuk performa kueri seri waktu dalam skala. Data ini dioptimalkan dari waktu ke waktu dan tidak statik. Selama partisi ulang, beberapa kejadian dapat muncul dalam beberapa blob dan nama blob mungkin berubah. Folder ini digunakan oleh Azure Time Series Insights Gen2 dan tidak boleh diakses secara langsung; Anda hanya boleh menggunakanPT=Time
untuk tujuan tersebut.
Catatan
Data dalam folder PT=Time
dari sebelum Juni 2021 dapat memiliki format filename tanpa rentang waktu kejadian: V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<TsiInternalSuffix>.parquet
. Format file internal sama dan file dengan kedua skema penamaan dapat digunakan bersamaan.
<YYYY>
memetakan ke representasi empat digit tahun.<MM>
memetakan ke representasi bulan dua digit.- Format
<YYYYMMDDHHMMSSfff>
memetakan tanda waktu ke tahun empat digit (YYYY
), bulan dua digit (MM
), hari dua digit (DD
), jam dua digit (HH
), dua digit menit (MM
), detik dua digit (SS
), dan milidetik tiga digit (fff
).
Acara Azure Time Series Insights Gen2 dipetakan ke konten file Parquet sebagai berikut:
- Masing-masing kejadian memetakan satu baris.
- Setiap baris menyertakan kolom tanda waktu dengan tanda waktu kejadian. Properti tanda waktu tidak pernah null. Tanda waktu default ke waktu yang diantrekan kejadian jika properti tanda waktu tidak ditentukan di sumber kejadian. Tanda waktu yang disimpan selalu dalam UTC.
- Masing-masing baris menyertakan kolom ID Seri Waktu (TSID) sebagaimana ditentukan saat lingkungan Azure Time Series Insights Gen2 dibuat. Nama properti TSID menyertakan akhiran
_string
. - Semua properti lain yang dikirim sebagai data telemetri dipetakan ke nama kolom yang diakhiri dengan
_bool
(boolean),_datetime
(tanda waktu),_long
(panjang),_double
(ganda),_string
(string), atau_dynamic
(dinamis), tergantung pada jenis properti. Untuk mengetahui informasi selengkapnya, baca tentang Jenis data yang didukung. - Skema pemetaan ini berlaku untuk versi pertama format file, direferensikan sebagai V=1, dan disimpan di folder dasar dengan nama yang sama. Seiring berkembangnya fitur ini, skema pemetaan ini mungkin berubah dan nama referensi fitur dinaikkan.
Langkah berikutnya
Baca tentang pemodelan data.
Rencanakan lingkungan Azure Time Series Insights Gen2 Anda.