Microsoft Fabric karar kılavuzu: kopyalama etkinliği, veri akışı veya Spark

Microsoft Fabric kullanarak iş yükleriniz için kopyalama etkinliğine, veri akışına veya Spark'a ihtiyacınız olup olmadığına karar verirken size yardımcı olması için bu başvuru kılavuzunu ve örnek senaryoları kullanın.

Önemli

Microsoft Fabric şu anda ÖNİzLEME aşamasındadır. Bu bilgiler, yayımlanmadan önce önemli ölçüde değiştirilebilen bir ön sürüm ürünüyle ilgilidir. Microsoft, burada sağlanan bilgilerle ilgili olarak açık veya zımni hiçbir garanti vermez.

Kopyalama etkinliği, veri akışı ve Spark özellikleri

İşlem hattı kopyalama etkinliği Veri Akışı 2. Nesil Spark
Kullanım örneği Veri gölü ve veri ambarı geçişi,
veri alımı,
basit dönüştürme
Veri alımı,
veri dönüştürme,
veri hazırlama,
veri profili oluşturma
Veri alımı,
veri dönüştürme,
veri işleme,
veri profili oluşturma
Birincil geliştirici kişisi Veri mühendisi,
veri tümleştiricisi
Veri mühendisi,
veri tümleştiricisi,
iş analisti
Veri mühendisi,
veri bilimcisi,
veri geliştirici
Birincil geliştirici beceri kümesi ETL
SQL
JSON
ETL
M
SQL
Spark (Scala, Python, Spark SQL, R)
Kod yazıldı Kod yok,
düşük kod
Kod yok,
düşük kod
Kod
Veri hacmi Düşük-yüksek Düşük-yüksek Düşük-yüksek
Geliştirme arabirimi Sihirbazı
Tuval
Power query Dizüstü
Spark iş tanımı
Kaynak 30'undan fazla bağlayıcı 150'nin üzeri bağlayıcı Yüzlerce Spark kitaplığı
Hedefler 18+ bağlayıcı Göl evi,
Azure SQL veritabanı
Azure Veri Gezgini'nin
Azure Synapse analizi
Yüzlerce Spark kitaplığı
Dönüştürme karmaşıklığı Düşük:
basit - tür dönüştürme, sütun eşleme, birleştirme/bölme dosyaları, düzleştirme hiyerarşisi
Aşağıdan yükseğe:
300'e fazla dönüştürme işlevi
Aşağıdan yükseğe:
yerel Spark ve açık kaynak kitaplıkları için destek

Doku'da verilerinizle nasıl çalışacağınızı seçme konusunda yardım için aşağıdaki üç senaryoyu gözden geçirin.

Senaryo1

Veri mühendisi leo'nun hem şirket içinden hem de buluttan büyük miktarda veriyi dış sistemlerden alması gerekiyor. Bu dış sistemler veritabanlarını, dosya sistemlerini ve API'leri içerir. Leo her bağlayıcı veya veri taşıma işlemi için kod yazmak ve bakımını yapmak istemiyor. Bronz, gümüş ve altın ile madalyon katmanlarının en iyi yöntemlerini izlemek istiyor. Leo'nun Spark deneyimi yoktur, bu nedenle minimum kodlama ile sürükleyip bırakma kullanıcı arabirimini mümkün olduğunca tercih eder. Ayrıca verileri belirli bir zamanlamaya göre işlemek de istiyor.

İlk adım, Azure veri kaynaklarından ve çeşitli üçüncü taraf kaynaklardan (Snowflake Web, REST, AWS S3, GCS vb.) ham verileri bronz katman lakehouse'a almaktır. Birleştirilmiş bir göl evi istiyor, böylece çeşitli LOB, şirket içi ve bulut kaynaklarından gelen tüm veriler tek bir yerde bulunuyor. Leo seçenekleri inceler ve ham ikili kopyası için uygun seçim olarak işlem hattı kopyalama etkinliğini seçer. Bu düzen hem geçmiş hem de artımlı veri yenileme için geçerlidir. Kopyalama etkinliğiyle Leo, ihtiyaç duyulursa Gold verilerini kod içermeyen bir veri ambarı'na yükleyebilir ve işlem hatları petabayt ölçeğindeki verileri taşıyabilen yüksek ölçekli veri alımı sağlar. Kopyalama etkinliği, petabaytlarce veriyi geçici veya bir zamanlama yoluyla çeşitli kaynaklardan göl evlerine ve ambarlara taşımak için en iyi düşük kodlu ve kodsuz seçenektir.

Senaryo2

Mary, birden çok LOB analitik raporlama gereksinimleri hakkında ayrıntılı bilgi sahibi olan bir veri mühendisidir. Yukarı akış ekibi, birden çok LOB'un geçmiş ve artımlı verilerini ortak bir lakehouse'a geçirmek için başarılı bir çözüm uyguladı. Mary'ye verileri temizleme, iş mantığı uygulama ve ilgili raporlama ekiplerine hazırlanmak üzere birden çok hedefe (Azure SQL DB, ADX ve lakehouse gibi) yükleme görevi verildi.

Mary deneyimli bir Power Query kullanıcısıdır ve istenen performansı elde etmek için veri hacmi düşük ila orta aralığındadır. Veri akışları, yüzlerce veri kaynağından veri almak için kodsuz veya düşük kodlu arabirimler sağlar. Veri akışlarıyla, 300'ü aşarak veri dönüştürme seçeneklerini kullanarak verileri dönüştürebilir ve kullanımı kolay, son derece görsel bir kullanıcı arabirimiyle sonuçları birden çok hedefe yazabilirsiniz. Mary seçenekleri inceler ve Tercih ettiği dönüştürme seçeneği olarak Dataflow 2. Nesil'i kullanmanın mantıklı olduğuna karar verir.

Senaryo3

Adem, müşteri verilerini depolamak ve analiz etmek için göl evi kullanan büyük bir perakende şirketinde çalışan bir veri mühendisidir. Adem, işinin bir parçası olarak verileri ayıklayan, dönüştüren ve lakehouse'a yükleyen veri işlem hatlarını oluşturmak ve korumakla sorumludur. Şirketin iş gereksinimlerinden biri, müşterilerinin deneyimleriyle ilgili içgörüler elde etmek ve hizmetlerini geliştirmek için müşteri inceleme analizi gerçekleştirmektir.

Adem en iyi seçeneğin Spark kullanarak ayıklama ve dönüştürme mantığını oluşturmak olduğuna karar verir. Spark, büyük miktarlardaki verileri paralel olarak işleyebilen bir dağıtılmış bilgi işlem platformu sağlar. Müşteri incelemeleri ve geri bildirimleri için OneLake'ten yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış verileri okuyan Python veya Scala kullanarak bir Spark uygulaması yazar. Uygulama, lakehouse'daki Delta tablolarını temizler, dönüştürür ve bu tablolara veri yazar. Veriler daha sonra aşağı akış analizi için kullanılmaya hazır olur.

Sonraki adımlar