Aracılığıyla paylaş


Azure Cosmos DB içeri aktar

Önemli

Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.

1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.

ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.

bu makalede, bir makine öğrenimi deneiminde kullanılmak üzere Azure Cosmos DB verileri içeri aktarmak için Machine Learning Studio 'da (klasik) veri alma modülünün nasıl kullanılacağı açıklanır.

Not

uygulama hedefi: yalnızca Machine Learning Studio (klasik)

benzer sürükle ve bırak modülleri Azure Machine Learning tasarımcısındakullanılabilir.

Azure Cosmos DB , esnek bir veri modeli kullanarak nosql veritabanı depolamayı destekler. machine learning için bu veri deposundaki SQL apı 'leri kullanmanın avantajları, hızlı ve öngörülebilir performans, otomatik ölçeklendirme, genel dağıtım ve zengin sorgu özellikleri içerir.

Azure SQL Veritabanı ile birlikte, bu seçenek gelen veri kümelerini dinamik olarak filtrelemenizi sağlar.

nasıl çalıştığını öğrenin: Azure Cosmos DB hakkında bilgi edinin

  • Azure Cosmos DB verileri kullanarak machine learning 'i kullanmaya başlamak için ilgili belgelerden oluşan bir koleksiyonu içeren mevcut bir Azure Cosmos DB hesabına erişiminizin olması gerekir.

Not

Machine Learning Studio 'daki kullanıcı arabirimi (klasik) hala DocumentDB adını birçok yerde kullanır. bu nedenle, apı Azure Cosmos DB ' ye eklenmiş olsa bile DocumentDB 'ye yönelik başvuruları görmeye devam edebilirsiniz.

Azure Cosmos DB ile içeri aktarma verileri nasıl kullanılır

Şemanın beklenen şekilde olduğundan emin olmak için verilerinizi içeri aktarmadan önce profilinizi kesinlikle öneririz. İçeri aktarma işlemi, şemayı belirleyebilmek için bazı baş satırları tarar, ancak sonraki satırlarda ek sütunlar veya hatalara neden olan veriler bulunabilir.

Sihirbazı kullanarak verileri içeri aktarma

Modül, bir depolama seçeneği seçmenize, mevcut abonelikler ve hesaplar arasından seçim yapmanıza ve tüm seçenekleri hızlı bir şekilde yapılandırmanıza yardımcı olacak yeni bir sihirbaz sunar.

  1. Veri alma modülünü denemenize ekleyin. Modülü, veri girişi ve çıkışıaltında bulabilirsiniz.

  2. Veri alma Sihirbazı 'Nı Başlat ' a tıklayın ve istemleri izleyin.

  3. Yapılandırma tamamlandığında, verileri denemenize fiili olarak kopyalamak için modüle sağ tıklayıp Seçileni Çalıştır' ı seçin.

İpucu

Mevcut bir veri bağlantısını düzenlemeniz gerekiyorsa, sihirbaz önceki tüm yapılandırma ayrıntılarını yükler. Sıfırdan tekrar başlamak zorunda değilsiniz.

Verileri Içeri aktarma modülündeki özellikleri el ile ayarlama

Aşağıdaki adımlarda, içeri aktarma kaynağının el ile nasıl yapılandırılacağı açıklanır.

  1. Veri alma modülünü denemenize ekleyin. Bu modülü veri girişi ve çıkış kategorisinde bulabilirsiniz.

  2. Veri kaynağıIçin Azure DocumentDB' yi seçin.

    Belge veritabanı için bağlantı bilgilerini sağlamanız gerekebilir.

    İpucu

    daha sonraki bir tarihte değiştirmek için Machine Learning Studio 'daki (klasik) seçeneğin adını bulun. İçeri aktarma işlevselliği ad değişikliğinden etkilenmemiştir.

  3. Uç nokta URL 'siIçin, Azure portalında anahtarlar' a tıklayın ve sayfanın üst kısmındaki URI alanının içeriğini kopyalayın.

  4. VERITABANı kimliğiiçin, kullanılacak veritabanının adını yapıştırın.

    Azure portalından veritabanı adını almak için Belge Gezgini' ne tıklayın. Bu bölmedeki veritabanlarının ve koleksiyonların listesini görebilirsiniz.

  5. DocumentDB anahtarıiçin hesap için bir erişim anahtarı yapıştırın.

    Anahtarları bulmak için anahtarlar' a tıklayın ve ardından birincil anahtar veya İkincil anahtar alanlarının içeriğini kopyalayın.

  6. Koleksıyon kimliğiiçin, belirtilen cosmosdb veritabanında gösterildiği gibi koleksiyonun adını yazın.

  7. SQL query ve SQL query parameters seçeneklerini kullanarak veri üzerinde SQL bir sorgu ve filtre koşulu tanımlayın.

    SQL sorguiçin, koleksiyondan alınacak verileri tanımlayan bir sorgu yazın. CosmosDB sorgularını önceden oluşturmak ve test etmek için sorgu Gezginini kullanmanızı öneririz.

    SQL sorgu parametreleriiçin, JSON biçiminde döndürülen verileri dinamik olarak filtrelemek için kullanılabilecek bir ifade sağlayın. Genellikle denemeyi bir Web hizmetinin parçası olarak çalıştırırken parametre değerinin gerçek değerini sağlarsınız.

    bir parametre kullanırsanız, filtre değişkeni adını SQL sorgu metin kutusunda belirtilen where yan tümcesinin bir parçası olarak tanımlamanız gerekir.

    Filtre ifadesi belirtmezseniz, varsayılan olarak değer " {} " olarak ayarlanır ve tüm kayıtlar döndürülür.

    örnek, bilinen sorunlar ve cosmosdb üzerinde SQL sorguları hakkında ek öneriler için teknik notlar bölümüne bakın.

  8. Varolan sonuçları yeniden kullanmak istiyorsanız, önbelleğe alınmış sonuçları kullan seçeneğini belirleyin.

    Bu seçeneğin işaretini kaldırırsanız, verilerin aynı olup olmamasından bağımsız olarak, her denemede veri okuma işlemi her çalıştırıldığında kaynaktan okunmaz.

    Machine Learning, önbelleğe alınmış verileri cosmosdb hesabınızdaki verilerle karşılaştıramaz . Bu nedenle Machine Learning Artımlı güncelleştirmeleri gerçekleştirmenin bir yolu yoktur.

    Yalnızca veriler değiştiğinde yeniden içeri aktarmak istiyorsanız, bu mantığı Azure Data Factory gibi başka bir uygulamada tanımlamanız gerekir. daha fazla bilgi için bkz. Azure Data Factory kullanarak Azure Cosmos DB veri taşıma.

  9. Denemeyi çalıştırın veya yalnızca veri al modülünü seçin ve Seçileni Çalıştır' a tıklayın.

Sonuçlar

Modülünü veya denemeyi çalıştırdıktan sonra, sonuçları tablolu biçimde görselleştirmek için modülün çıktısına sağ tıklayabilirsiniz.

bu verilerin bir anlık görüntüsünü Machine Learning çalışma alanınızda veri kümesi olarak yakalamak için, modülün çıktısına sağ tıklayıp veri kümesi olarak kaydet' i seçebilirsiniz. Ancak, bunun yapılması yalnızca içeri aktarma sırasında mevcut olan verileri yakalar. Verilerin sık olarak değiştirilmesi bekleniyorsa, verileri Içeri aktarma işlemini gerektiği şekilde yeniden çalıştırın.

Örnekler

Azure Cosmos DB makine öğrenimi için bir veri kaynağı olarak kullanma hakkında ayrıntılı yönergeler için, bkz. Azure Yapay Zeka Galerisi.

Teknik notlar

Bu bölüm, gelişmiş yapılandırma seçeneklerini ve sık sorulan soruların yanıtlarını içerir.

Basit ve parametreli sorgu örnekleri

Yalnızca 10000 fit 'in altındaki yükseltme ile Volcanoes üzerindeki verileri kullanmak istediğinizi varsayalım.

Basit sorgu

aşağıdaki sorguyu SQL sorgu metin kutusuna yapıştırın:Select * from volcanodb where volcanodb.Elevation < 10000

Bu durumda, filtre ifadesinin değeri " {} " olarak ayarlanır ve tüm kayıtlar döndürülür.

Parametre tabanlı sorgu

Yalnızca belirli bir ülkeyle ilgili Volcano verilerini almak için ülke değerini, çalışma zamanında sorguya geçirilmiş bir parametre olarak belirtebilirsiniz. Bu değişiklikler gereklidir:

  1. SQL sorgusu metin kutusunda, SQL sorgusunun parçası olarak alana uygulanacak Country bir değişken tanımlayın:

    Select * from volcanodb where volcanodb.Country = @param1

  2. sorgu parametrelerini SQL metin kutusunda, parametre adını ve değerini JSON biçiminde belirtin, örneğin:

    {"@param1":"Turkey"}

Kaynaklar

Mevcut bir belge depolumeniz yoksa, başlamak için şu makalelere bakın.

Veri geçişi ve sorgu sözdizimi yardımı

JSON veri deposundaki sorgu örnekleri için Azure Cosmos DB sorgu oluşturma sayfasınıindirin.

içeriği Azure Cosmos DB 'a yüklemeniz gerekiyorsa Azure Cosmos DB geçiş aracıönerilir. Verilerinizi doğrular, karşıya yükler ve dizine ekler. araç, mongodb, Amazon dynamodb, hbase, SQL Server veritabanları ve CSV dosyaları dahil olmak üzere birden çok kaynağı destekler.

Şema-daha seyrek sorgular kullanma

veriler tutarlı ve öngörülebilir ise, gibi basit SQL benzeri sözdizimini SELECT * FROM <document collection> kullanabilirsiniz. Bu, döndürülecek öznitelikleri tam olarak adlandırmadığı için şemaya daha seyrek bir sorgu olarak adlandırılır. Böyle bir sorgu, tüm alanları ve belirtilen koleksiyondaki tüm satırları döndürür.

Ancak, belgelerin tutarsız şemaları varsa şema belirtmezseniz beklenmeyen sonuçlara veya çalışma zamanı hatasına yol açabilirsiniz. Bunun nedeni, Verileri İçeri Aktarma modülünün önceden belirlenen satır sayısına göre şemayı şu şekilde çıkarım girişiminde bulunarak denemesidir:

  1. Hiçbir öznitelik belirtilmedinde modül CosmosDB veritabanındaki ilk satırı tarar.
  2. Modül, özniteliklere göre sütun adları oluşturur ve sütun veri türlerinin örnek satıra göre ne olması gerektiğini tahmin eder.
  3. Sonraki satırlarda yeni veya farklı öznitelikler varsa bir çalışma zamanı hatası oluşturulur.

Bu nedenle, CosmosDB veri deposuna geri dönmek için her zaman öznitelikleri ve değerleri belirtmenizi öneririz. Örneğin, söz dizimi kullanmak SELECT * yerine, sorgu tarafından alınan tüm öznitelikleri şu şekilde adlamanizi öneririz:

SELECT MyTable.Gender, MyTable.Age, MyTable.Name FROM <document collection>

Modül parametreleri

Aşağıdaki tabloda yalnızca Azure Cosmos DB seçeneği için geçerli olan Verileri İçeri Aktarma modülü parametreleri yer almaktadır.

Name Aralık Tür Gerekli Varsayılan Description
Veri kaynağı list HTTP gerekli yok Veri kaynağı HTTP, FTP, anonim HTTPS veya FTPS, Azure BLOB depolamadaki bir dosya, Azure tablosu, Azure SQL Veritabanı, Hive tablosu, OData uç noktası veya Azure Cosmos dB olabilir.
Uç nokta URL'si herhangi biri string gerekli yok Azure Cosmos DB sunucusu için URI'yi sağlama
Veritabanı Kimliği herhangi biri string gerekli yok Azure Cosmos DB veritabanının adını girin
DocumentDB Anahtarı herhangi biri Securestring gerekli yok Azure Cosmos DB hesabı için geçerli bir API anahtarı sağlama
Koleksiyon kimliği herhangi biri string gerekli yok Azure Cosmos DB veritabanındaki bir koleksiyonun adını girin
SQL Sorgusu herhangi biri string gerekli yok Azure SQL DB veri depolamadan geri dönecek kayıtları belirten Cosmos sorgu

Çıkışlar

Ad Tür Description
Sonuç veri kümesi Veri Tablosu İndirilen verileri olan veri kümesi

Özel durumlar

Özel durum Description
Hata 0003 Bir veya daha fazla giriş null veya boşsa özel durum oluşur.
Hata 0029 Geçersiz bir URI geçir olduğunda özel durum oluşur.
Hata 0002 Bir veya daha fazla parametre ayrıştırılana veya belirtilen türden hedef yöntemin gerekli türüne dönüştürülememesi bir özel durum oluşur.
Hata 0048 Bir dosyanın açılması mümkün değilken bir özel durum oluşur.
Hata 0049 Bir dosyayı ayrıştırmak mümkün değilken bir özel durum oluşur.

Studio (klasik) modüllerine özgü hataların listesi için bkz. Machine Learning kodları.

API özel durumlarının listesi için bkz. Machine Learning REST API Kodları.

Ayrıca bkz.

Verileri İçeri Aktarma
Verileri Dışarı Aktarma
HTTP aracılığıyla Web URL’sinden içeri aktarma
Hive Sorgusundan içeri aktarma
Azure SQL Veritabanı’ndan içeri aktarma
Dosyadan içeri Azure Blob Depolama
Veri Akışı Sağlayıcılarından içeri aktarma
Şirket İçi Veritabanı'SQL Server aktarma