Özellik mühendisliği ve hizmet
Bu sayfa Unity Kataloğu için etkinleştirilen çalışma alanları için özellik mühendisliği ve sunma özelliklerini kapsar. Çalışma alanınız Unity Kataloğu için etkinleştirilmemişse bkz . Çalışma alanı özellik deposu (Eski).
Özellik deponuz olarak neden Databricks kullanmalısınız?
Databricks Veri Zekası Platformu ile model eğitim iş akışının tamamı tek bir platformda gerçekleşir:
- Ham verileri alan, özellik tabloları oluşturan, modelleri eğiten ve toplu çıkarım gerçekleştiren veri işlem hatları. Unity Kataloğu'nda özellik mühendisliğini kullanarak bir modeli eğitip günlüğe kaydettiğinizde, model özellik meta verileriyle birlikte paketlenmiştir. Modeli toplu puanlama veya çevrimiçi çıkarım için kullandığınızda, özellik değerlerini otomatik olarak alır. Çağıranın bunları bilmesi veya yeni verileri puanlayan özellikleri aramak veya birleştirmek için mantık içermesi gerekmez.
- Tek tıklamayla kullanılabilen ve milisaniyelik gecikme süresi sağlayan model ve özellik sunma uç noktaları.
- Veri ve model izleme.
Buna ek olarak, platform aşağıdakileri sağlar:
- Özellik bulma. Databricks kullanıcı arabirimindeki özelliklere göz atabilir ve özellikleri arayabilirsiniz.
- İdare. Özellik tablolarının, işlevlerin ve modellerin tümü Unity Kataloğu tarafından yönetilir. Bir modeli eğittiğiniz zaman, eğitildiği verilerden izinleri devralır.
- Soy. Azure Databricks'te bir özellik tablosu oluşturduğunuzda, özellik tablosunu oluşturmak için kullanılan veri kaynakları kaydedilir ve erişilebilir. Özellik tablosundaki her özellik için özelliği kullanan modellere, not defterlerine, işlere ve uç noktalara da erişebilirsiniz.
- Çalışma alanları arası erişim. Özellik tabloları, işlevler ve modeller, kataloğa erişimi olan tüm çalışma alanlarında otomatik olarak kullanılabilir.
Gereksinimler
- Unity Kataloğu için çalışma alanınızın etkinleştirilmesi gerekir.
- Unity Kataloğu'nda özellik mühendisliği için Databricks Runtime 13.3 LTS veya üzeri gerekir.
Çalışma alanınız bu gereksinimleri karşılamıyorsa çalışma alanı özellik deposunun nasıl kullanılacağını öğrenmek için bkz . Çalışma alanı özellik deposu (Eski ).
Databricks'te özellik mühendisliği nasıl çalışır?
Databricks'te özellik mühendisliği kullanan tipik makine öğrenmesi iş akışı şu yolu izler:
- Ham verileri özelliklere dönüştürmek için kod yazın ve istenen özellikleri içeren bir Spark DataFrame oluşturun.
- Unity Kataloğu'nda bir Delta tablosu oluşturun. Birincil anahtarı olan tüm Delta tabloları otomatik olarak bir özellik tablosudur.
- Özellik tablosunu kullanarak modeli eğitin ve günlüğe kaydedin. Bunu yaptığınızda model, eğitim için kullanılan özelliklerin belirtimlerini depolar. Model çıkarım için kullanıldığında, uygun özellik tablolarındaki özellikleri otomatik olarak birleştirir.
- Modeli Model Kayıt Defteri'ne kaydedin.
Artık modeli kullanarak yeni verilerle ilgili tahminlerde bulunabilirsiniz. Toplu kullanım örnekleri için model, ihtiyaç duyduğu özellikleri Özellik Deposu'ndan otomatik olarak alır.
Gerçek zamanlı hizmet kullanım örnekleri için, özellikleri çevrimiçi bir tabloda yayımlayın. Üçüncü taraf çevrimiçi mağazalar da desteklenir. Bkz . Üçüncü taraf çevrimiçi mağazaları.
Çıkarım zamanında model, çevrimiçi mağazadan önceden hesaplanan özellikleri okur ve istemci isteğinde sağlanan verilerle uç noktaya hizmet veren modele ekler.
Özellik mühendisliğini kullanmaya başlama — örnek not defterleri
Başlamak için bu örnek not defterlerini deneyin. Temel not defteri, özellik tablosu oluşturma, modeli eğitmek için bunu kullanma ve ardından otomatik özellik araması kullanarak toplu puanlama gerçekleştirme adımlarını gösterir. Ayrıca Özellik Mühendisliği kullanıcı arabirimini tanıtır ve özellikleri aramak ve özelliklerin nasıl oluşturulduğunu ve kullanıldığını anlamak için nasıl kullanabileceğinizi gösterir.
Unity Kataloğu'nda Temel Özellik Mühendisliği örnek not defteri
Taksi örneği not defteri, özellik oluşturma, bunları güncelleştirme ve model eğitimi ve toplu çıkarım için kullanma sürecini gösterir.
Unity Kataloğu'nda Özellik Mühendisliği taksi örneği not defteri
Desteklenen veri türleri
Unity Kataloğu ve çalışma alanı özellik deposunda özellik mühendisliği aşağıdaki PySpark veri türlerini destekler:
IntegerType
FloatType
BooleanType
StringType
DoubleType
LongType
TimestampType
DateType
ShortType
ArrayType
BinaryType
[1]DecimalType
[1]MapType
[1]StructType
[2]
[1] BinaryType
, DecimalType
ve MapType
, Unity Kataloğu'nda ve Çalışma Alanı Özellik Deposu v0.3.5 veya üzeri sürümlerde Özellik Mühendisliği'nin tüm sürümlerinde desteklenir.
[2] StructType
Özellik Mühendisliği v0.6.0 veya üzerinde desteklenir.
Yukarıda listelenen veri türleri, makine öğrenmesi uygulamalarında yaygın olan özellik türlerini destekler. Örneğin:
- Yoğun vektörleri, tensörleri ve eklemeleri olarak
ArrayType
depolayabilirsiniz. - Seyrek vektörleri, tensorları ve eklemeleri olarak
MapType
depolayabilirsiniz. - Metni olarak
StringType
depolayabilirsiniz.
Çevrimiçi mağazalarda ArrayType
yayımlandığında ve MapType
özellikler JSON biçiminde depolanır.
Özellik Deposu kullanıcı arabirimi, özellik veri türlerinde meta verileri görüntüler:
Daha Fazla Bilgi
En iyi yöntemler hakkında daha fazla bilgi için Özellik Mağazalarının Kapsamlı Kılavuzu'nu indirin.