Aracılığıyla paylaş


Unity Kataloğu dış konumunu kullanarak veri yükleme

Önemli

Bu özellik Genel Önizlemededir.

Bu makalede, Unity Kataloğu dış konumu kullanarak Azure Data Lake Storage 2. Nesil'daki verilerden yönetilen tablo oluşturmak için veri ekleme kullanıcı arabiriminin nasıl kullanılacağı açıklanmaktadır. Dış konum, bulut depolama yolunu bulut depolama yoluna erişim yetkisi veren bir depolama kimlik bilgileriyle birleştiren bir nesnedir.

Başlamadan önce

Başlamadan önce aşağıdakilere sahip olmanız gerekir:

Dosya türleri

Aşağıdaki belge türleri desteklenmektedir:

  • CSV
  • TSV
  • JSON
  • XML
  • AVRO
  • Parquet

1. Adım: Dış konuma erişimi onaylama

Dış konuma erişimi onaylamak için aşağıdakileri yapın:

  1. Azure Databricks çalışma alanınızın kenar çubuğunda Katalog'a tıklayın.
  2. Katalog Gezgini'nde Dış Veri>Dış Konumlar'a tıklayın.

2. Adım: Yönetilen tabloyu oluşturma

Yönetilen tabloyu oluşturmak için aşağıdakileri yapın:

  1. Çalışma alanınızın kenar çubuğunda + Yeni>Veri ekle'ye tıklayın.

  2. Veri ekleme kullanıcı arabiriminde Azure Data Lake Storage'a tıklayın.

  3. Açılan listeden bir dış konum seçin.

  4. Azure Databricks'e yüklemek istediğiniz klasörleri ve dosyaları seçin ve ardından Tabloyu önizleme'ye tıklayın.

  5. Açılan listelerden bir katalog ve şema seçin.

  6. (İsteğe bağlı) Tablo adını düzenleyin.

  7. (İsteğe bağlı) Gelişmiş biçim seçeneklerini dosya türüne göre ayarlamak için Gelişmiş öznitelikler'e tıklayın, Dosya türünü otomatik olarak algıla'yı kapatın ve bir dosya türü seçin.

    Biçim seçeneklerinin listesi için aşağıdaki bölüme bakın.

  8. (İsteğe bağlı) Sütun adını düzenlemek için sütunun üst kısmındaki giriş kutusuna tıklayın.

    Sütun adları virgülleri, ters eğik çizgileri veya unicode karakterleri (emojiler gibi) desteklemez.

  9. (İsteğe bağlı) Sütun türlerini düzenlemek için, türdeki simgeye tıklayın.

  10. Tablo oluştur'a tıklayın.

Dosya türü biçim seçenekleri

Dosya türüne bağlı olarak aşağıdaki biçim seçenekleri kullanılabilir:

Biçim seçeneği Açıklama Desteklenen dosya türleri
Column delimiter Sütunlar arasındaki ayırıcı karakter. Yalnızca tek bir karaktere izin verilir ve ters eğik çizgi desteklenmez.

Varsayılan değer virgüldür.
CSV
Escape character Verileri ayrıştırırken kullanılacak kaçış karakteri.

Varsayılan değer bir tırnak işaretidir.
CSV
First row contains the header Bu seçenek, dosyanın üst bilgi içerip içermediğini belirtir.

Varsayılan olarak etkindir.
CSV
Automatically detect file type Dosya türünü otomatik olarak algılayın. Varsayılan true değeridir. XML
Automatically detect column types Dosya içeriğindeki sütun türlerini otomatik olarak algılayın. Önizleme tablosunda türleri düzenleyebilirsiniz. Bu false olarak ayarlanırsa, tüm sütun türleri STRING olarak çıkarılır.

Varsayılan olarak etkindir.
- CSV

- JSON
-XML
Rows span multiple lines Bir sütunun değerinin dosyadaki birden çok satıra yayılıp yayılmayabileceği.

Varsayılan olarak devre dışıdır.
- CSV

- JSON
Merge the schema across multiple files Şemanın birden çok dosya arasında çıkarılıp çıkarılmayacağı ve her dosyanın şemasının birleştirilip birleştirmeyeceği.

Varsayılan olarak etkindir.
CSV
Allow comments Dosyada açıklamalara izin verilip verilmeyeceği.

Varsayılan olarak etkindir.
JSON
Allow single quotes Dosyada tek tırnak işaretine izin verilip verilmeyeceği.

Varsayılan olarak etkindir.
JSON
Infer timestamp Zaman damgası dizelerinin olarak TimestampTypeçıkarılıp çıkarılmayacağı.

Varsayılan olarak etkindir.
JSON
Rescued data column Şemayla eşleşmeyen sütunların kaydedilip kaydedilmeyeceği. Daha fazla bilgi için bkz . Kurtarılan veri sütunu nedir?.

Varsayılan olarak etkindir.
- CSV

- JSON
- Avro
-Parke
Exclude attribute Öğelerdeki özniteliklerin dışlanıp dışlanmaymayacağı. Varsayılan false değeridir. XML
Attribute prefix Öznitelikleri ve öğeleri ayırt etmeye yönelik öznitelikler için ön ek. Varsayılan _ değeridir. XML

Sütun veri türleri

Aşağıdaki sütun veri türleri desteklenir. Tek tek veri türleri hakkında daha fazla bilgi için bkz . SQL veri türleri.

Veri Türü Açıklama
BIGINT 8 bayt imzalı tamsayı numaraları.
BOOLEAN Boole (true, false) değerleri.
DATE ve gün, saat dilimi olmadan.
DECIMAL (P,S) Maksimum duyarlıklı P ve sabit ölçekli Ssayılar.
DOUBLE 8 baytlık çift duyarlıklı kayan nokta sayıları.
STRING Karakter dizesi değerleri.
TIMESTAMP Oturum yerel saat dilimiyle yıl, ay, gün, saat, dakika ve saniye alanlarının değerlerini içeren değerler.

Bilinen sorunlar

  • Arka uç veya iki nokta üst üste içeren bir anahtara sahip JSON nesnesi gibi karmaşık veri türlerindeki özel karakterlerle ilgili sorunlarla karşılaşabilirsiniz.
  • Bazı JSON dosyaları, dosya türü için JSON'ı el ile seçmenizi gerektirebilir. Dosyaları seçtikten sonra bir dosya türünü el ile seçmek için Gelişmiş öznitelikler'e tıklayın, Dosya türünü otomatik olarak algıla'yı kapatın ve JSON'u seçin.
  • Karmaşık türlerin içinde iç içe yerleştirilmiş zaman damgaları ve ondalıklar sorunlarla karşılaşabilir.