Unity Kataloğu dış konumunu kullanarak veri yükleme
Önemli
Bu özellik Genel Önizlemededir.
Bu makalede, Unity Kataloğu dış konumu kullanarak Azure Data Lake Storage 2. Nesil'daki verilerden yönetilen tablo oluşturmak için veri ekleme kullanıcı arabiriminin nasıl kullanılacağı açıklanmaktadır. Dış konum, bulut depolama yolunu bulut depolama yoluna erişim yetkisi veren bir depolama kimlik bilgileriyle birleştiren bir nesnedir.
Başlamadan önce
Başlamadan önce aşağıdakilere sahip olmanız gerekir:
- Unity Kataloğu'nu etkinleştirmiş bir çalışma alanı. Daha fazla bilgi için bkz . Unity Kataloğu'nu ayarlama ve yönetme.
- Dış
READ FILES
konumdaki ayrıcalık. Daha fazla bilgi için bkz . Bulut depolama alanını Azure Databricks'e bağlamak için dış konum oluşturma. CREATE TABLE
Yönetilen tabloyu oluşturmak istediğiniz şema üzerindeki ayrıcalık, şemadakiUSE SCHEMA
ayrıcalık ve üst katalogdakiUSE CATALOG
ayrıcalık. Daha fazla bilgi için bkz . Unity Kataloğu ayrıcalıkları ve güvenliği sağlanabilir nesneler.
Dosya türleri
Aşağıdaki belge türleri desteklenmektedir:
- CSV
- TSV
- JSON
- XML
- AVRO
- Parquet
1. Adım: Dış konuma erişimi onaylama
Dış konuma erişimi onaylamak için aşağıdakileri yapın:
- Azure Databricks çalışma alanınızın kenar çubuğunda Katalog'a tıklayın.
- Katalog Gezgini'nde Dış Veri>Dış Konumlar'a tıklayın.
2. Adım: Yönetilen tabloyu oluşturma
Yönetilen tabloyu oluşturmak için aşağıdakileri yapın:
Çalışma alanınızın kenar çubuğunda + Yeni>Veri ekle'ye tıklayın.
Veri ekleme kullanıcı arabiriminde Azure Data Lake Storage'a tıklayın.
Açılan listeden bir dış konum seçin.
Azure Databricks'e yüklemek istediğiniz klasörleri ve dosyaları seçin ve ardından Tabloyu önizleme'ye tıklayın.
Açılan listelerden bir katalog ve şema seçin.
(İsteğe bağlı) Tablo adını düzenleyin.
(İsteğe bağlı) Gelişmiş biçim seçeneklerini dosya türüne göre ayarlamak için Gelişmiş öznitelikler'e tıklayın, Dosya türünü otomatik olarak algıla'yı kapatın ve bir dosya türü seçin.
Biçim seçeneklerinin listesi için aşağıdaki bölüme bakın.
(İsteğe bağlı) Sütun adını düzenlemek için sütunun üst kısmındaki giriş kutusuna tıklayın.
Sütun adları virgülleri, ters eğik çizgileri veya unicode karakterleri (emojiler gibi) desteklemez.
(İsteğe bağlı) Sütun türlerini düzenlemek için, türdeki simgeye tıklayın.
Tablo oluştur'a tıklayın.
Dosya türü biçim seçenekleri
Dosya türüne bağlı olarak aşağıdaki biçim seçenekleri kullanılabilir:
Biçim seçeneği | Açıklama | Desteklenen dosya türleri |
---|---|---|
Column delimiter |
Sütunlar arasındaki ayırıcı karakter. Yalnızca tek bir karaktere izin verilir ve ters eğik çizgi desteklenmez. Varsayılan değer virgüldür. |
CSV |
Escape character |
Verileri ayrıştırırken kullanılacak kaçış karakteri. Varsayılan değer bir tırnak işaretidir. |
CSV |
First row contains the header |
Bu seçenek, dosyanın üst bilgi içerip içermediğini belirtir. Varsayılan olarak etkindir. |
CSV |
Automatically detect file type |
Dosya türünü otomatik olarak algılayın. Varsayılan true değeridir. |
XML |
Automatically detect column types |
Dosya içeriğindeki sütun türlerini otomatik olarak algılayın. Önizleme tablosunda türleri düzenleyebilirsiniz. Bu false olarak ayarlanırsa, tüm sütun türleri STRING olarak çıkarılır. Varsayılan olarak etkindir. |
- CSV - JSON -XML |
Rows span multiple lines |
Bir sütunun değerinin dosyadaki birden çok satıra yayılıp yayılmayabileceği. Varsayılan olarak devre dışıdır. |
- CSV - JSON |
Merge the schema across multiple files |
Şemanın birden çok dosya arasında çıkarılıp çıkarılmayacağı ve her dosyanın şemasının birleştirilip birleştirmeyeceği. Varsayılan olarak etkindir. |
CSV |
Allow comments |
Dosyada açıklamalara izin verilip verilmeyeceği. Varsayılan olarak etkindir. |
JSON |
Allow single quotes |
Dosyada tek tırnak işaretine izin verilip verilmeyeceği. Varsayılan olarak etkindir. |
JSON |
Infer timestamp |
Zaman damgası dizelerinin olarak TimestampType çıkarılıp çıkarılmayacağı.Varsayılan olarak etkindir. |
JSON |
Rescued data column |
Şemayla eşleşmeyen sütunların kaydedilip kaydedilmeyeceği. Daha fazla bilgi için bkz . Kurtarılan veri sütunu nedir?. Varsayılan olarak etkindir. |
- CSV - JSON - Avro -Parke |
Exclude attribute |
Öğelerdeki özniteliklerin dışlanıp dışlanmaymayacağı. Varsayılan false değeridir. |
XML |
Attribute prefix |
Öznitelikleri ve öğeleri ayırt etmeye yönelik öznitelikler için ön ek. Varsayılan _ değeridir. |
XML |
Sütun veri türleri
Aşağıdaki sütun veri türleri desteklenir. Tek tek veri türleri hakkında daha fazla bilgi için bkz . SQL veri türleri.
Veri Türü | Açıklama |
---|---|
BIGINT |
8 bayt imzalı tamsayı numaraları. |
BOOLEAN |
Boole (true , false ) değerleri. |
DATE |
ve gün, saat dilimi olmadan. |
DECIMAL (P,S) |
Maksimum duyarlıklı P ve sabit ölçekli S sayılar. |
DOUBLE |
8 baytlık çift duyarlıklı kayan nokta sayıları. |
STRING |
Karakter dizesi değerleri. |
TIMESTAMP |
Oturum yerel saat dilimiyle yıl, ay, gün, saat, dakika ve saniye alanlarının değerlerini içeren değerler. |
Bilinen sorunlar
- Arka uç veya iki nokta üst üste içeren bir anahtara sahip JSON nesnesi gibi karmaşık veri türlerindeki özel karakterlerle ilgili sorunlarla karşılaşabilirsiniz.
- Bazı JSON dosyaları, dosya türü için JSON'ı el ile seçmenizi gerektirebilir. Dosyaları seçtikten sonra bir dosya türünü el ile seçmek için Gelişmiş öznitelikler'e tıklayın, Dosya türünü otomatik olarak algıla'yı kapatın ve JSON'u seçin.
- Karmaşık türlerin içinde iç içe yerleştirilmiş zaman damgaları ve ondalıklar sorunlarla karşılaşabilir.