Aracılığıyla paylaş


Çalışma alanı dosyaları nedir?

Çalışma alanı dosyaları, Databricks çalışma alanı dosya sisteminde depolanan ve yönetilen dosyalardır. Çalışma alanı dosyaları neredeyse her tür dosya olabilir. Yaygın örnekler şunlardır:

  • Not Defterleri (.ipynb)
  • Kaynak not defterleri (.py, .sql, .rve .scala)
  • SQL sorguları (.dbquery.ipynb)
  • Kontrol Panelleri (.lvdash.json)
  • Uyarılar (.dbalert.json)
  • Özel modüllerde kullanılan Python dosyaları (.py) dosyaları
  • YAML yapılandırması (.yaml veya .yml)
  • Markdown (.md) dosyaları, örneğin README.md
  • Metin dosyaları (.txt) veya diğer küçük veri dosyaları (.csv)
  • Kitaplıklar (.whl, .jar)
  • Günlük dosyaları (.log)

Not

Genie alanları ve deneyleri çalışma alanı dosyaları olamaz.

Dosyalarla çalışmak için öneriler için bkz. Hacimlerdeki ve çalışma alanı dosyalarındaki dosyalar için öneriler.

Azure Databricks çalışma alanı dosya ağacınız "Databricks Git klasörleri" adlı bir Git deposuna eklenmiş klasörler içerebilir. Git klasörlerinin bazı ek dosya türü sınırlamaları vardır. Git klasörlerinde desteklenen dosya türlerinin (eski adıyla "Depolar") listesi için bkz. Git klasörleri tarafından desteklenen varlık türleri.

Önemli

Databricks Runtime sürüm 11.2'de çalışma alanı dosyaları varsayılan olarak her yerde etkinleştirilir. Üretim iş yükleri için Databricks Runtime 11.3 LTS veya üzerini kullanın. Bu işleve erişemiyorsanız çalışma alanı yöneticinize başvurun.

Çalışma alanı dosyalarıyla ne yapabilirsiniz?

Azure Databricks, yerleşik bir dosya düzenleyicisi de dahil olmak üzere birçok çalışma alanı dosya türü için yerel geliştirmeye benzer işlevler sağlar. Tüm dosya türleri için tüm kullanım örnekleri desteklenmez.

Not defteri etkileşimlerindeki tanıdık desenleri kullanarak çalışma alanı dosyalarına erişimi oluşturabilir, düzenleyebilir ve yönetebilirsiniz. Yerel geliştirmeye benzer şekilde, çalışma alanı dosyalarından kitaplıkları içe aktarmak için relatif yolları kullanabilirsiniz. Daha ayrıntılı bilgi için bkz.

Çalışma alanı dosyalarında depolanan init betiklerinin özel davranışları vardır. Herhangi bir Databricks Runtime sürümünde init betiklerini depolamak ve bunlara başvurmak için çalışma alanı dosyalarını kullanabilirsiniz. Bkz. Çalışma alanı dosyalarında başlatma betiklerini depolama.

Not

Databricks Runtime 14.0 ve üzerinde, yerel olarak yürütülen kod için varsayılan geçerli çalışma dizini (CWD), çalıştırılmakta olan not defterini veya betiği içeren dizindir. Bu, Databricks Runtime 13.3 LTS ve altındaki davranışlarda bir değişikliktir. Bkz. Varsayılan geçerli çalışma dizini nedir?.

Sınırlama

  • İş akışınız uzak git deposunda bulunan kaynak kodu kullanıyorsa, geçerli dizine yazamaz veya göreli bir yol kullanarak yazamazsınız. Diğer konum seçeneklerine veri yazma.
  • Çalışma alanı dosyalarına kaydederken git komutlarını kullanamazsınız. Çalışma alanı dosyalarında dizin oluşturmaya .git izin verilmez.
  • Spark yürütücülerini (gibi spark.read.format("csv").load("file:/Workspace/Users/<user-folder>/data.csv")) kullanarak çalışma alanı dosyalarından okuma , sunucusuz işlemde desteklenmez.
  • Yürütücüler çalışma alanı dosyalarına yazamaz.
  • Symlink'ler yalnızca /Workspacegibi os.symlink("/Workspace/Users/someone@example.com/Testing", "Testing") kök klasörü altındaki hedef dizinler için desteklenir.
  • Databricks Runtime 14.2 ve altındaki standart erişim moduna sahip kümelerdeki kullanıcı tanımlı işlevlerden (UDF) çalışma alanı dosyalarına erişilemiyor.
  • Notebook'lar yalnızca Databricks Runtime 16.2 ve üzeri ve sunucusuz ortam 2 ve üzeri için çalışma alanı dosyaları olarak desteklenir.
  • Bir not defteri Databricks Runtime 16.0 ve üzerinde Python modülü olarak içeri aktarılamaz. Bunun yerine , not defteri biçimini değiştirin veya kodun içeri aktarılmasını istiyorsanız not defterini bir Python dosyası olarak yeniden düzenlemeniz gerekir.
  • Sorgular, uyarılar ve panolar yalnızca Databricks Runtime 16.4 ve üzeri ile sunucusuz ortam 2 ve üzerinde çalışma alanı dosyaları olarak desteklenir. Ayrıca, bu çalışma alanı dosyaları yeniden adlandırılamaz.
  • yalnızca not defterleri ve dosyalar, %sh lsgibi dosya sistemi komutlarını kullanarak görüntülemeyi ve düzenlemeyi destekler.
  • Çalışma alanı dosyalarına erişmek için dbutils.fs komutlarının kullanılması sunucusuz işlemde desteklenmez. Not defterlerini sunucusuz işlemde çalıştırırken not defterlerinde %sh hücre veya Python'da shutil gibi dile özgü komutlar kullanın.

Dosya boyutu sınırı

  • Çalışma alanı dosya boyutu 500 MB ile sınırlıdır. Bu sınırdan daha büyük dosyaları indirmeye veya oluşturmaya çalışan işlemler başarısız olur.

Dosya erişimi izin sınırı

/Workspace altındaki klasörlerdeki dosyalara erişim izni, etkileşimli işlem için 36 saat sonra ve işler için 30 gün sonra süresi dolar. Databricks, Workspace dosyalarına erişim gerektiğinde uzun süreli çalıştırmaların iş olarak gerçekleştirilmesini önerir.

Çalışma alanı dosyalarını etkinleştirme

Databricks çalışma alanınızda not defteri olmayan dosyalar için desteği etkinleştirmek için, Databricks çalışma alanınıza erişimi olan bir not defterinden veya başka bir ortamdan /api/2.0/workspace-conf REST API'sini çağırın. Çalışma alanı dosyaları varsayılan olarak etkindir.

Databricks çalışma alanınızda not defteri olmayan dosyalar için desteği etkinleştirmek veya yeniden etkinleştirmek için /api/2.0/workspace-conf çağırın ve enableWorkspaceFileSystem anahtarının değerini alın. trueolarak ayarlanmışsa, not defteri olmayan dosyalar çalışma alanınızda zaten etkinleştirilmiştir.

Aşağıdaki örnek, çalışma alanı dosyalarının devre dışı bırakılıp bırakılmadığını kontrol etmek ve eğer öyleyse, onları yeniden etkinleştirmek için bu API'yi bir not defterinden nasıl çağırabileceğinizi gösterir.

Örnek: Databricks çalışma alanı dosya desteğini yeniden etkinleştirmeye yönelik not defteri

not defteri alma