Memahami ekosistem data Azure

Selesai

Analitik modern membutuhkan alat yang dapat menyimpan dan mengubah data dari banyak sumber. Di unit ini, Anda akan mempelajari tentang solusi penyimpanan data Azure, penyerapan data, dan pemrosesan data.

Sebelum mempresentasikan solusi analitik kepada CEO Relecloud, tim data membutuhkan pemahaman yang jelas tentang tempat data berasal, bentuk data, dan skala yang diharapkan serta frekuensi data yang masuk. Sebelum melakukan pengumpulan persyaratan terstruktur, Anda duduk bersama tim untuk meninjau konsep data utama.

Solusi penyimpanan data Azure

Akun Azure Storage adalah jenis penyimpanan dasar dalam Azure. Azure Storage menawarkan penyimpanan objek yang dapat diskalakan untuk objek data dan layanan sistem file di cloud.

Dalam solusi analitik, data dari berbagai sumber digabungkan dan disiapkan untuk digunakan. Data dapat disimpan sebagai file di penyimpanan data lake atau dalam database. Memahami jenis penyimpanan dasar dalam Azure penting bagi teknisi data, sedangkan analis data harus terbiasa dengan penyimpanan data analitik yang menyajikan data yang diproses dalam format yang dapat dikueri menggunakan alat analitis.

Overall data pipeline diagram beginning with data sources on the left and flowing through to analytics and reporting.

Area yang digarisbawahi dengan warna merah pada gambar di atas menyoroti bagian dari solusi analitik yang digunakan analis data untuk memahami data.

Penyerapan dan pemrosesan data

Penyerapan data adalah proses memperoleh dan mengimpor data untuk penggunaan atau penyimpanan segera di penyimpanan data analitis.

Pemrosesan data hanya merupakan konversi data mentah menjadi informasi yang berarti melalui proses. Bergantung pada cara data diserap ke dalam sistem, Anda dapat memproses setiap item data saat tiba, atau melakukan buffer pada data mentah dan memprosesnya dalam grup. Memproses data saat tiba disebut aliran. Buffering dan pemrosesan data dalam grup disebut pemrosesan batch.

Dalam pemrosesan batch, elemen data yang baru tiba dikumpulkan ke dalam grup. Seluruh grup kemudian diproses di waktu mendatang sebagai batch. Waktu tepatnya setiap grup diproses dapat ditentukan dengan banyak cara. Misalnya, Anda dapat memproses data berdasarkan interval waktu yang dijadwalkan (misalnya, setiap jam), atau dapat dipicu ketika sejumlah data telah tiba. Proses tagihan bulanan Relecloud adalah contoh yang baik dari pemrosesan batch, karena transaksi akun diproses dan ditagih setiap bulan.

Catatan

Pemrosesan batch adalah jenis pemrosesan data yang paling umum, paling cocok untuk himpunan data besar atau data yang berasal dari sistem data warisan. Pemrosesan batch tidak cocok untuk analisis cepat dan pengambilan keputusan.

Dalam pemrosesan aliran, setiap bagian data baru diproses saat tiba. Misalnya, penyerapan data secara inheren merupakan proses aliran.

Aliran menangani data secara real time. Tidak seperti pemrosesan batch, tidak ada menunggu sampai interval pemrosesan batch berikutnya, dan data diproses sebagai bagian-bagian terpisah, alih-alih diproses batch pada suatu waktu. Pemrosesan data aliran bermanfaat pada sebagian besar skenario ketika data dinamis dan baru dihasilkan secara terus-menerus.

Departemen penipuan akan menggunakan pemrosesan aliran untuk menangani penipuan real time dan deteksi anomali.

Catatan

Pemrosesan aliran sangat ideal untuk proyek yang memerlukan analisis real time, dan kurang cocok untuk proyek yang membutuhkan analitik kompleks.

Meskipun pemrosesan data biasanya terjadi di bagian upstram penyimpanan data analitis, sangat penting bagi analis untuk memahami cara data diserap dan pada frekuensi apa, untuk membangun solusi analitik yang sesuai.