Cara membuat katalog big data di Azure Data Catalog

Artikel
12/13/2023

Penting

Azure Data Catalog dihentikan pada 15 Mei 2024.

Untuk fitur katalog data, gunakan layanan Microsoft Purview , yang menawarkan tata kelola data terpadu untuk seluruh data estate Anda.

Pendahuluan

Microsoft Azure Data Catalog adalah layanan cloud yang dikelola penuh yang berfungsi sebagai sistem pendaftaran dan sistem penemuan untuk sumber data perusahaan. Ini semua tentang membantu orang menemukan, memahami, dan menggunakan sumber data, dan membantu organisasi untuk mendapatkan nilai lebih dari sumber data yang ada, termasuk big data.

Azure Data Catalog mendukung pendaftaran blob dan direktori dari Azure Storage serta file dan direktori Hadoop HDFS. Sifat semi-terstruktur dari sumber data ini memberikan fleksibilitas besar. Namun, untuk mendapatkan nilai maksimal dari mendaftarkannya di Azure Data Catalog, pengguna harus mempertimbangkan bagaimana sumber data diatur.

Direktori sebagai kumpulan data logis

Pola umum untuk mengatur sumber big data adalah memperlakukan direktori sebagai kumpulan data logis. Direktori tingkat atas digunakan untuk menentukan kumpulan data, sementara subfolder menentukan partisi, dan file yang dimuatnya menyimpan data itu sendiri.

Contoh dari pola ini dapat berupa:

    \vehicle_maintenance_events
        \2013
        \2014
        \2015
            \01
                \2015-01-trailer01.csv
                \2015-01-trailer92.csv
                \2015-01-canister9635.csv
                ...
    \location_tracking_events
        \2013
        ...

Dalam contoh ini, vehicle_maintenance_events dan location_tracking_events mewakili kumpulan data logis. Masing-masing folder ini berisi file data yang diatur menurut tahun dan bulan ke dalam subfolder. Masing-masing folder ini berpotensi berisi ratusan atau ribuan file.

Dalam pola ini, mendaftarkan file individual dengan Azure Data Catalog mungkin tidak masuk akal. Sebagai gantinya, daftarkan direktori yang mewakili kumpulan data yang bermakna bagi pengguna yang bekerja dengan data.

Mereferensikan file data

Pola pelengkap adalah menyimpan kumpulan data referensi sebagai file individual. Himpunan data ini dapat dianggap sebagai sisi 'kecil' dari big data, dan sering kali mirip dengan dimensi dalam model data analitis. File data referensi berisi rekaman yang digunakan untuk menyediakan konteks untuk sebagian besar file data yang disimpan di tempat lain di penyimpanan big data.

Contoh dari pola ini dapat berupa:

    \vehicles.csv
    \maintenance_facilities.csv
    \maintenance_types.csv

Ketika seorang analis atau ilmuwan data bekerja dengan data yang terkandung dalam struktur direktori yang lebih besar, data dalam file referensi ini dapat digunakan untuk memberikan informasi yang lebih rinci untuk entitas yang hanya disebut dengan nama atau ID dalam kumpulan data yang lebih besar.

Dalam pola ini, masuk akal untuk mendaftarkan file data referensi individual dengan Azure Data Catalog. Setiap file mewakili kumpulan data, dan masing-masing dapat dianotasikan dan ditemukan secara individual.

Pola alternatif

Pola yang dijelaskan di bagian sebelumnya adalah dua kemungkinan cara penyimpanan big data dapat diatur, tetapi setiap implementasi berbeda. Terlepas dari bagaimana sumber data Anda terstruktur, saat mendaftarkan sumber data besar dengan Azure Data Catalog, fokus pada pendaftaran file dan direktori yang mewakili kumpulan data yang bernilai bagi orang lain dalam organisasi Anda. Mendaftarkan semua file dan direktori dapat memenuhi katalog, sehingga lebih sulit bagi pengguna untuk menemukan apa yang mereka butuhkan.

Ringkasan

Mendaftarkan sumber data dengan Azure Data Catalog menjadikannya lebih mudah ditemukan dan dipahami. Dengan mendaftarkan dan menganotasi file dan direktori big data yang mewakili kumpulan data logis, Anda dapat membantu pengguna menemukan dan menggunakan sumber data besar yang mereka butuhkan.

Bagikan melalui