Apa itu data lake?

Data lake adalah repositori penyimpanan yang menyimpan sejumlah besar data dalam format asli dan mentahnya. Penyimpanan data lake dioptimalkan untuk penskalaan data hingga terabyte dan petabyte. Data biasanya berasal dari berbagai sumber heterogen, dan mungkin terstruktur, semi-terstruktur, atau tidak terstruktur. Ide dengan data lake adalah untuk menyimpan segala sesuatu dalam keadaan aslinya yang belum diubah. Pendekatan ini berbeda dari gudang data tradisional, yang mengubah dan memproses data pada saat penyerapan.

A diagram that shows the different data lake use cases.

Berikut ini adalah kasus penggunaan data lake utama:

  • Pergerakan data Cloud dan IoT
  • Pemrosesan big data
  • Analitik
  • Pelaporan
  • Pergerakan data lokal

Keuntungan dari data lake:

  • Data tidak pernah dibuang, karena data disimpan dalam format mentahnya. Ini sangat berguna dalam lingkungan data besar, ketika Anda mungkin tidak mengetahui sebelumnya wawasan apa yang tersedia dari data.
  • Pengguna dapat menjelajahi data dan membuat kueri mereka sendiri.
  • Mungkin lebih cepat daripada alat ETL tradisional.
  • Lebih fleksibel daripada gudang data, karena dapat menyimpan data tidak terstruktur dan semi terstruktur.

Solusi data lake lengkap terdiri dari penyimpanan dan pemrosesan. Penyimpanan data lake dirancang untuk toleransi kesalahan, skalabilitas tak terbatas, dan penyerapan data dengan throughput tinggi dengan berbagai bentuk dan ukuran. Pemrosesan data lake melibatkan satu atau beberapa mesin pemrosesan yang dibuat dengan mempertimbangkan tujuan ini, dan dapat beroperasi pada data yang disimpan dalam data lake dalam skala besar.

Kapan harus menggunakan data lake

Penggunaan umum untuk data lake mencakup eksplorasi data, analisis data, dan pembelajaran mesin.

Data lake juga dapat bertindak sebagai sumber data untuk gudang data. Dengan pendekatan ini, data mentah diserap ke dalam data lake dan kemudian diubah menjadi format kueri terstruktur. Biasanya transformasi ini menggunakan alur ELT (extract-load-transform), tempat data diserap dan diubah di tempat. Sumber data yang sudah relasional dapat langsung masuk ke gudang data, menggunakan proses ETL, melewatkan data lake.

Penyimpanan data lake sering digunakan dalam streaming peristiwa atau skenario IoT, karena penyimpanan ini dapat menyimpan data relasional dan nonrelasional dalam jumlah besar tanpa transformasi atau definisi skema. Penyimpanan ini dibuat untuk menangani volume tinggi penulisan kecil pada latensi rendah, dan dioptimalkan untuk throughput yang besar.

Tabel berikut membandingkan data lake dan gudang data:

A table that compares data lake features with data warehouse features.

Tantangan

  • Kurangnya skema atau metadata deskriptif dapat membuat data sulit diserap atau dikueri.
  • Kurangnya konsistensi semantik di seluruh data dapat menyulitkan untuk melakukan analisis pada data, kecuali jika pengguna sangat ahli dalam analitik data.
  • Sulit untuk menjamin kualitas data yang masuk ke data lake.
  • Tanpa tata kelola yang tepat, kontrol akses dan masalah privasi dapat menjadi masalah. Informasi apa yang masuk ke dalam data lake, siapa yang dapat mengakses data tersebut, dan untuk kegunaan apa?
  • Data lake mungkin bukan cara terbaik untuk mengintegrasikan data yang sudah relasional.
  • Dengan sendirinya, data lake tidak memberikan pandangan yang terintegrasi atau holistik di seluruh organisasi.
  • Data lake dapat menjadi tempat pembuangan data yang tidak pernah benar-benar dianalisis atau ditambang untuk mendapatkan wawasan.

Pilihan teknologi

Bangun solusi data lake menggunakan layanan berikut yang ditawarkan oleh Azure:

A diagram that shows the key data lake services.

  • Azure HD Insight adalah layanan analitik sumber terbuka yang dikelola, spektrum penuh, di cloud untuk perusahaan.
  • Azure Data Lake Store adalah repositori yang kompatibel dengan Hadoop hyperscale.
  • Azure Data Lake Analytics adalah layanan pekerjaan analitik sesuai permintaan untuk menyederhanakan analitik big data.

Kontributor

Artikel ini dikelola oleh Microsoft. Ini awalnya ditulis oleh kontributor berikut.

Penulis utama:

Langkah berikutnya