Aracılığıyla paylaş


Veri gölü nedir?

Veri gölü, büyük miktarda veriyi yerel ve ham biçiminde tutan bir depolama deposudur. Data Lake Store'lar, boyutlarını terabaytlar ve petabaytlar kadar veriye ölçeklendirmek için iyileştirilmiştir. Veriler genellikle birden çok farklı kaynaktan gelir ve yapılandırılmış, yarı yapılandırılmış veya yapılandırılmamış veriler içerebilir. Veri gölü, her şeyi özgün, çevirimsiz durumda depolamanıza yardımcı olur. Bu yöntem, veri alımı sırasında verileri dönüştüren ve işleyen geleneksel bir veri ambarından farklıdır.

Çeşitli veri gölü kullanım örneklerini gösteren diyagram.

Önemli data lake kullanım örnekleri şunlardır:

  • Bulut ve Nesnelerin İnterneti (IoT) veri taşıma.
  • Büyük veri işleme.
  • Analizler.
  • Raporlama.
  • Şirket içi veri taşıma.

Bir veri gölünün aşağıdaki avantajlarını göz önünde bulundurun:

  • Veri gölü verileri ham biçiminde depoladığı için verileri hiçbir zaman silmez. Bu özellik özellikle büyük bir veri ortamında kullanışlıdır çünkü verilerden hangi içgörüleri alabileceğinizi önceden bilmiyor olabilirsiniz.

  • Kullanıcılar verileri keşfedebilir ve kendi sorgularını oluşturabilir.

  • Veri gölü geleneksel ayıklama, dönüştürme, yükleme (ETL) araçlarından daha hızlı olabilir.

  • Veri gölü, yapılandırılmamış ve yarı yapılandırılmış verileri depolayabildiğinden veri ambarından daha esnektir.

Eksiksiz bir data lake çözümü hem depolama hem de işlemeden oluşur. Data Lake Storage, hataya dayanıklılık, sonsuz ölçeklenebilirlik ve çeşitli şekil ve veri boyutlarının yüksek aktarım hızı alımı için tasarlanmıştır. Veri gölü işleme, bu hedefleri içerebilen ve büyük ölçekte bir veri gölünde depolanan veriler üzerinde çalışabilen bir veya daha fazla işleme altyapısını içerir.

Bir veri gölü kullanmanız gerektiğinde

Veri keşfi, veri analizi ve makine öğrenmesi için bir veri gölü kullanmanızı öneririz.

Veri gölü, bir veri ambarı için veri kaynağı olarak görev yapabilir. Bu yöntemi kullandığınızda, veri gölü ham verileri alır ve ardından yapılandırılmış sorgulanabilir biçime dönüştürür. Bu dönüştürme genellikle verilerin alınıp yerinde dönüştürüldüğü ayıklama , yükleme, dönüştürme (ELT) işlem hattını kullanır. İlişkisel kaynak verileri bir ETL işlemi aracılığıyla doğrudan veri ambarı'na gidebilir ve veri gölü atlayabilir.

Veri gölleri büyük miktarlarda ilişkisel ve ilişkisel olmayan verileri dönüştürme veya şema tanımı olmadan kalıcı hale getirmesi nedeniyle, olay akışı veya IoT senaryolarında data lake depolarını kullanabilirsiniz. Veri gölleri düşük gecikme süresinde yüksek hacimli küçük yazma işlemlerini işleyebilir ve yüksek aktarım hızı için iyileştirilmiştir.

Aşağıdaki tablo veri göllerini ve veri ambarlarını karşılaştırır.

Data Lake özelliklerini veri ambarı özellikleriyle karşılaştıran bir tablo.

Zorluklar

  • Büyük hacimli veriler: Çok büyük miktarlarda ham ve yapılandırılmamış verilerin yönetimi karmaşık ve kaynak açısından yoğun olabilir, bu nedenle sağlam altyapı ve araçlara ihtiyacınız vardır.

  • Olası performans sorunları: Veri işleme, özellikle yüksek hacimli veriler ve çeşitli veri türlerine sahip olduğunuzda gecikmelere ve verimsizliklere neden olabilir.

  • Veri bozulması riskleri: Hatalı veri doğrulama ve izleme, veri gölü bütünlüğünü tehlikeye atabilecek veri bozulması riski getirir.

  • Kalite denetimi sorunları: Veri kaynaklarının ve biçimlerin çeşitliliği nedeniyle doğru veri kalitesi zor bir durumdur. Sıkı veri idaresi uygulamaları uygulamanız gerekir.

  • Performans sorunları: Veri gölü büyüdükçe sorgu performansı düşebileceğinden depolama ve işleme stratejilerini iyileştirmeniz gerekir.

Teknoloji seçimleri

Azure'da kapsamlı bir data lake çözümü oluştururken aşağıdaki teknolojileri göz önünde bulundurun:

  • Azure Data Lake Storage, Azure Blob Depolama Apache Hadoop uyumlu erişim, hiyerarşik ad alanı özellikleri ve verimli büyük veri analizi için gelişmiş güvenlik sağlayan veri gölü özellikleriyle birleştirir.

  • Azure Databricks , verileri işlemek, depolamak, analiz etmek ve para kazanmak için kullanabileceğiniz birleşik bir platformdur. ETL işlemlerini, panoları, güvenliği, veri keşfini, makine öğrenmesini ve üretken yapay zekayı destekler.

  • Azure Synapse Analytics , anlık iş zekası ve makine öğrenmesi gereksinimleri için verileri almak, keşfetmek, hazırlamak, yönetmek ve sunmak için kullanabileceğiniz birleşik bir hizmettir. Büyük veri kümelerini verimli bir şekilde sorgulayıp analiz edebilmeniz için Azure veri gölleriyle derinlemesine tümleşir.

  • Azure Data Factory , veri taşıma ve dönüştürmeyi düzenleyip otomatikleştirmek için veri odaklı iş akışları oluşturmak için kullanabileceğiniz bulut tabanlı bir veri tümleştirme hizmetidir.

  • Microsoft Fabric , veri mühendisliği, veri bilimi, veri ambarı, gerçek zamanlı analiz ve iş zekasını tek bir çözümde birleştirir.

Katkıda Bulunanlar

Bu makale Microsoft tarafından yönetilir. Başlangıçta aşağıdaki katkıda bulunanlar tarafından yazılmıştır.

Asıl yazar:

Genel olmayan LinkedIn profillerini görmek için LinkedIn'de oturum açın.

Sonraki adımlar