Dosya karşıya yükleme kullanarak tablo oluşturma veya değiştirme
Dosya yükleme kullanarak tablo oluşturma veya değiştirme sayfası yönetilen Delta Lake tablosu oluşturmak veya üzerine yazmak için CSV, TSV veya JSON, Avro, Parquet veya metin dosyalarını karşıya yüklemenize olanak tanır.
Unity Kataloğu'nda veya Hive meta veri deposunda yönetilen Delta tabloları oluşturabilirsiniz.
Not
Ayrıca, bulut depolamadan dosya yüklemek için veri ekleme kullanıcı arabirimini veya COPY INTO'yi kullanabilirsiniz.
Önemli
- Hedef şemada tablo oluşturmak için çalışan bir işlem kaynağına ve izinlerine erişiminiz olmalıdır.
- Çalışma alanı yöneticileri, Dosya yükleme sayfasını kullanarak tablo oluşturma veya değiştirme sayfasını devre dışı bırakabilir.
Yerel makinenizden küçük CSV, TSV, JSON, Avro, Parquet veya metin dosyalarını içeri aktararak Delta tablosu oluşturmak için kullanıcı arabirimini kullanabilirsiniz.
- Dosya yükleme kullanarak tablo oluşturma veya değiştirme sayfası, aynı anda en fazla 10 dosya yüklemeyi destekler.
- Karşıya yüklenen dosyaların toplam boyutu 2 gigabayttan küçük olmalıdır.
- Dosyanın CSV, TSV, JSON, Avro, Parquet veya metin dosyası olması ve ".csv", ".tsv" (veya ".sekme"), ".json", ".avro", ".parquet" veya ".txt" uzantısına sahip olması gerekir.
- ve
tar
gibizip
sıkıştırılmış dosyalar desteklenmez.
Dosyayı karşıya yükleme
- Yeni Veri ekle'ye > tıklayın .
- Tablo oluştur veya değiştir'e tıklayın.
- Dosya tarayıcısı düğmesine tıklayın veya dosyaları doğrudan bırakma bölgesine sürükleyip bırakın.
Not
İçeri aktarılan dosyalar, hesabınızdaki güvenli bir dahili konuma yüklenir ve günlük olarak çöp toplanır.
Tabloyu önizleme, yapılandırma ve oluşturma
İşlem kaynaklarına bağlanmadan hazırlama alanına veri yükleyebilirsiniz, ancak tablonuzu önizlemek ve yapılandırmak için etkin bir işlem kaynağı seçmeniz gerekir.
Karşıya yüklenen tablonun seçeneklerini yapılandırırken verilerinizin 50 satırının önizlemesini görüntüleyebilirsiniz. Verilerinizin sunusunu değiştirmek için dosya adının altındaki kılavuz veya liste düğmelerine tıklayın.
Azure Databricks, yönetilen tablolar için veri dosyalarını içeren şema için yapılandırılan konumlarda depolar. Şemada tablo oluşturmak için uygun izinlere sahip olmanız gerekir.
Aşağıdakileri yaparak tablo oluşturmak istediğiniz şemayı seçin:
- (Yalnızca Unity Kataloğu etkin çalışma alanları için) Bir katalog veya eski
hive_metastore
öğesini seçebilirsiniz. - Bir şema seçin.
- (İsteğe bağlı) Tablo adını düzenleyin.
Not
Varolan tablonun üzerine yaz'ı veya Yeni tablo oluştur'u seçmek için açılan listeyi kullanabilirsiniz. Ad çakışmaları olan yeni tablolar oluşturmaya çalışan işlemler bir hata iletisi görüntüler.
Tabloyu oluşturmadan önce seçenekleri veya sütunları yapılandırabilirsiniz.
Tabloyu oluşturmak için sayfanın en altındaki Oluştur'a tıklayın.
Biçim seçenekleri
Biçim seçenekleri, karşıya yüklediğiniz dosya biçimine bağlıdır. Üst bilgi çubuğunda ortak biçim seçenekleri görüntülenirken, Gelişmiş öznitelikler iletişim kutusunda daha az yaygın kullanılan seçenekler bulunur.
- CSV için aşağıdaki seçenekler kullanılabilir:
- İlk satır üst bilgiyi içerir (varsayılan olarak etkin): Bu seçenek CSV/TSV dosyasının üst bilgi içerip içermediğini belirtir.
- Sütun sınırlayıcısı: Sütunlar arasındaki ayırıcı karakter. Yalnızca tek bir karaktere izin verilir ve ters eğik çizgi desteklenmez. Bu, CSV dosyaları için varsayılan olarak virgül olarak kullanılır.
- Sütun türlerini otomatik olarak algıla (varsayılan olarak etkin): Dosya içeriğindeki sütun türlerini otomatik olarak algılayın. Önizleme tablosunda türleri düzenleyebilirsiniz. Bu false olarak ayarlanırsa, tüm sütun türleri olarak
STRING
çıkarılır. - Satırlar birden çok satıra yayılabilir (varsayılan olarak devre dışıdır): Bir sütunun değerinin dosyadaki birden çok satıra yayılıp yayılmayabileceği.
- Şemayı birden çok dosya arasında birleştirme: Şemanın birden çok dosya arasında çıkarılıp çıkarılmayacağı ve her dosyanın şemasının birleştirilip birleştirmeyeceği. Devre dışı bırakılırsa, bir dosyadaki şema kullanılır.
- JSON için aşağıdaki seçenekler kullanılabilir:
- Sütun türlerini otomatik olarak algıla (varsayılan olarak etkin): Dosya içeriğindeki sütun türlerini otomatik olarak algılayın. Önizleme tablosunda türleri düzenleyebilirsiniz. Bu false olarak ayarlanırsa, tüm sütun türleri olarak
STRING
çıkarılır. - Satırlar birden çok satıra yayılabilir (varsayılan olarak etkindir): Bir sütunun değerinin dosyadaki birden çok satıra yayılıp yayılmayabileceği.
- Açıklamalara izin ver (varsayılan olarak etkin): Dosyada açıklamalara izin verilip verilmeyeceği.
- Tek tırnak işaretine izin ver (varsayılan olarak etkin): Dosyada tek tırnak işaretine izin verilip verilmeyeceği.
- Zaman damgasını çıkar (varsayılan olarak etkin): Zaman damgası dizelerini olarak
TimestampType
çıkarılmaya çalışılıp çalışılmayacağı.
- Sütun türlerini otomatik olarak algıla (varsayılan olarak etkin): Dosya içeriğindeki sütun türlerini otomatik olarak algılayın. Önizleme tablosunda türleri düzenleyebilirsiniz. Bu false olarak ayarlanırsa, tüm sütun türleri olarak
- JSON için aşağıdaki seçenekler kullanılabilir:
- Sütun türlerini otomatik olarak algıla (varsayılan olarak etkin): Dosya içeriğindeki sütun türlerini otomatik olarak algılayın. Önizleme tablosunda türleri düzenleyebilirsiniz. Bu false olarak ayarlanırsa, tüm sütun türleri olarak
STRING
çıkarılır. - Satırlar birden çok satıra yayılabilir (varsayılan olarak devre dışıdır): Bir sütunun değerinin dosyadaki birden çok satıra yayılıp yayılmayabileceği.
- Açıklamalara izin ver Dosyada açıklamalara izin verilip verilmeyeceği.
- Tek tırnak işaretine izin ver: Dosyada tek tırnak işaretine izin verilip verilmeyeceği.
- Zaman damgası çıkar: Zaman damgası dizelerini olarak
TimestampType
çıkarsamaya çalışıp çalışmayacağınız.
- Sütun türlerini otomatik olarak algıla (varsayılan olarak etkin): Dosya içeriğindeki sütun türlerini otomatik olarak algılayın. Önizleme tablosunda türleri düzenleyebilirsiniz. Bu false olarak ayarlanırsa, tüm sütun türleri olarak
Biçim seçeneklerini düzenlediğinizde veri önizlemesi otomatik olarak güncelleştirilir.
Not
Birden çok dosyayı karşıya yüklediğinizde aşağıdaki kurallar geçerlidir:
- Üst bilgi ayarları tüm dosyalara uygulanır. Veri kaybını önlemek için üst bilgilerin sürekli olarak bulunmadığından veya karşıya yüklenen tüm dosyalarda bulunduğundan emin olun.
- Karşıya yüklenen dosyalar, tüm verileri hedef tabloya satır olarak ekleyerek birleştirilir. Dosya yükleme sırasında kayıtları birleştirme veya birleştirme desteklenmez.
Sütun adları ve türleri
Sütun adlarını ve türlerini düzenleyebilirsiniz.
Türleri düzenlemek için, türü içeren simgeye tıklayın.
Not
veya
ARRAY
içinSTRUCT
iç içe türleri düzenleyemezsiniz.Sütun adını düzenlemek için sütunun üst kısmındaki giriş kutusuna tıklayın.
Sütun adları virgülleri, ters eğik çizgileri veya unicode karakterleri (emojiler gibi) desteklemez.
CSV ve JSON dosyaları için sütun veri türleri varsayılan olarak çıkarılır. Gelişmiş öznitelikleri>otomatik olarak algıla sütun türlerini devre dışı bırakarak tüm sütunları tür olarak STRING
yorumlayabilirsiniz.
Not
- Şema çıkarımı, sütun türlerinin en iyi şekilde algılanması için çaba gösterir. Sütun türlerinin değiştirilmesi, değerin hedef veri türüne
NULL
doğru şekilde oluşturulamaması durumunda bazı değerlerin türüne alınmasına neden olabilir. veyaTIMESTAMP
sütunlarınaDATE
atamaBIGINT
desteklenmez. Databricks, önce bir tablo oluşturmanızı ve daha sonra SQL işlevlerini kullanarak bu sütunları dönüştürmenizi önerir. - Özel karakterler içeren tablo sütun adlarını desteklemek için Dosya yükleme kullanarak tablo oluşturma veya değiştirme sayfasında Sütun Eşlemesi kullanılır.
- Sütunlara açıklama eklemek için tabloyu oluşturun ve açıklama ekleyebileceğiniz Katalog Gezgini'ne gidin.
Desteklenen veri türleri
Dosya yükleme kullanarak tablo oluşturma veya değiştirme sayfası aşağıdaki veri türlerini destekler. Tek tek veri türleri hakkında daha fazla bilgi için bkz . SQL veri türleri.
Veri Türü | Açıklama |
---|---|
BIGINT |
8 bayt imzalı tamsayı numaraları. |
BOOLEAN |
Boole (true , false ) değerleri. |
DATE |
Saat dilimi olmayan yıl, ay ve gün alanlarının değerlerini içeren değerler. |
DOUBLE |
8 baytlık çift duyarlıklı kayan nokta sayıları. |
STRING |
Karakter dizesi değerleri. |
TIMESTAMP |
Oturum yerel saat dilimiyle yıl, ay, gün, saat, dakika ve saniye alanlarının değerlerini içeren değerler. |
STRUCT |
Bir alan dizisi tarafından açıklanan yapıya sahip değerler. |
ARRAY |
Türe sahip bir öğe dizisini oluşturan değerlerelementType . |
DECIMAL(P,S) |
Maksimum duyarlıklı P ve sabit ölçekli S sayılar. |
Bilinen sorunlar
BIGINT
'y' biçiminde tarihler gibi, gibi DATE
atanamaz türlere atama hataları tetikleyebilir.