Göl evi için veri alımı seçenekleri

Dosyaları basit bir şekilde yüklemekten ölçeklenebilir işlem hatlarına ve gerçek zamanlı akışa kadar birçok farklı yolla verilerinizi bir lakehouse'a alabilirsiniz. Doğru yaklaşım veri kaynağına, hacime, dönüştürme karmaşıklığına ve tek seferlik yüke mi yoksa sürekli alıma mı ihtiyacınız olduğuna bağlıdır.

Lakehouse'a veri yüklemenin yolları

Aşağıdaki bölümlerde dosya yükleme, kısayollar, Veri Akışı 2. Nesil, veri işlem hatları, not defteri kodu ve Eventstream gibi en basit kod içermeyen seçenekten daha gelişmiş programlı ve gerçek zamanlı yöntemlere kadar sıralanmış her yaklaşım açıklanmaktadır.

Dosya yükle

Küçük dosyaları herhangi bir dönüşüm yapmadan bir lakehouse'a yüklemek için, bunları doğrudan Lakehouse Gezgini aracılığıyla yerel makinenizden yükleyin.

Lakehouse gezgininde dosya karşıya yükleme iletişim kutusunun ekran görüntüsü.

Kısayollar

Kısayollar, diğer depolama konumlarındaki verilere kopyalamadan başvurmanıza olanak sağlar. Kısayol, göl evinde klasör olarak görünür ancak başka bir göl evinde, Azure Data Lake Storage 2. Nesil hesabında, Amazon S3'te veya desteklenen diğer kaynaklarda depolanan verileri gösterir. Kaynaklar arasında verileri yinelemeden sorgulamak veya birleştirmek istediğinizde kısayollar kullanışlıdır. Daha fazla bilgi için bkz Bir göl evindeki kısayollar.

Dataflow Gen 2

Veri Akışı 2. Nesil, 200'den fazla bağlayıcısı olan düşük kodlu bir veri dönüştürme aracıdır. Power Query arabiriminde dönüştürmeleri görsel olarak tanımlar ve sonuçları bir lakehouse tablosuna verirsiniz. Veri akışı 2. Nesil, daha küçük veri kümeleri için veya diğer araçlarda kullanılamayan bağlayıcılara ihtiyacınız olduğunda iyi bir seçimdir. Daha fazla bilgi için bkz. Verileri almak ve dönüştürmek için ilk veri akışınızı oluşturma.

Veri işlem hatları

Veri işlem hatları, büyük hacimli verileri bir lakehouse'a taşımak için ölçeklenebilir bir kopyalama aracı sağlar. Kopyalama etkinliği çok çeşitli veri kaynaklarına bağlanır ve verileri özgün biçiminde yükleyebilir veya Delta tablosuna dönüştürebilir. İşlem hatlarını zamanlayabilir, olaylara göre tetikleyebilir ve birden çok etkinliği birbirine zincirleyebilirsiniz. Daha fazla bilgi için bkz. Kopyalama etkinliğini kullanarak verileri kopyalama.

Notebook kodu

Spark not defterleri, veri alımı üzerinde tam programlı denetim sağlar. Spark kitaplıklarını kullanarak bir veri kaynağına bağlanın, DataFrame'e veri yükleyin, dönüştürmeleri uygulayın ve sonuçları bir lakehouse'a kaydedin. Bu yaklaşım en esnek yaklaşımdır ve karmaşık dönüştürme mantığına veya diğer araçların desteklemeyen kaynaklarına uygundur.

Note

Spark koduyla oluşturulan dış Delta tabloları sql analiz uç noktası tarafından görünmez. Dış Delta tablolarının sql analiz uç noktası için görünür olmasını sağlamak için Tablolar bölümündeki kısayolları kullanın. Daha fazla bilgi için Göl evinde kısayollar bölümüne bakın.

Olay Akışı

Olay akışı , çok çeşitli kaynaklardan yüksek hacimli gerçek zamanlı olayları alır, işler ve yönlendirir. Akış verilerini doğrudan Delta tablolarına getirmek için hedef olarak bir göl evi ekleyebilirsiniz.

Eventstream'den bir lakehouse'a veri alma işleminin ekran görüntüsü.

Daha fazla bilgi için bkz. Göl evinde Eventstream'den veri alma.

Zaman serisi veya yüksek aktarım hızına sahip akış senaryoları için olayları bir Eventhouse'a akışla aktarabilir ve OneLake kullanılabilirliğini etkinleştirebilirsiniz. Bu, OneLake'te bir lakehouse'un kısayol aracılığıyla erişebileceği bir Delta tablosu oluşturur. Daha fazla bilgi için bkz. Eventhouse OneLake kullanılabilirliği.

Bir yaklaşım seçin

Aşağıdaki tablo, verileri bir lakehouse'a yüklemede her yaklaşımın ne zaman kullanılacağını özetlemektedir.

Senaryo Önerilen yaklaşım
Yerel makineden küçük dosyalar Dosya yükle
Verileri kopyalamadan referans verme Kısayollar
Görsel dönüşümlerle küçük ve orta ölçekli veriler Dataflow Gen 2
Büyük ölçekli veri taşıma Veri işlem hatları
Karmaşık dönüştürmeler veya desteklenmeyen kaynaklar Notebook kodu
Gerçek zamanlı olay alımı Olay Akışı
Zaman serisi veya yüksek hızlı akış Eventstream'den OneLake kullanılabilirliği ile Eventhouse'a