Aracılığıyla paylaş


Hive Sorgusuna Aktarma

Önemli

Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.

1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.

ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.

Not

Uygulama: Machine Learning Studio (yalnızca klasik)

Benzer sürükle ve bırak modülleri tasarımcıda da Azure Machine Learning kullanılabilir.

Bu makalede, Machine Learning Studio'daki (klasik) Verileri Dışarı Aktar modülünde Verileri Hive'a dışarı aktar seçeneğinin nasıl kullanımı açıklanmıştır. Bu seçenek, çok büyük veri kümeleriyle çalışırken ve makine öğrenmesi denemesi verilerinizi bir Hadoop kümesine veya HDInsight dağıtılmış depolama alanına kaydetmek istediğiniz zaman kullanışlıdır. Ayrıca, ara sonuçları veya diğer verileri Hadoop'a dışarı aktararak bir iş kullanarak MapReduce de iyi olabilir.

Verileri Hive'a dışarı aktarma

  1. Verileri Dışarı Aktarma modülünü denemenize ekleyin. Bu modülü Machine Learning Studio'daki (klasik) Veri Girişi ve Çıkışı kategorisinde bulabilirsiniz.

    Bağlan dışarı aktarmayı istediğiniz veri kümesine aktarın.

  2. Veri kaynağı için HiveSorgusu'nı seçin.

  3. Hive tablo adı için veri kümesinde depolanacak Hive tablosu adını yazın.

  4. HCatalog sunucusu URI'sı metin kutusuna kümenizin tam adını yazın.

    Örneğin, adına sahip bir küme oluşturduysanız mycluster001şu biçimi kullanın:

    https://mycluster001.azurehdinsight.net

  5. Hadoop kullanıcı hesabı adı metin kutusuna kümeyi sağlarken kullanılan Hadoop kullanıcı hesabını yapıştırın.

  6. Hadoop kullanıcı hesabı parolası metin kutusuna kümeyi sağlarken kullanılan kimlik bilgilerini yazın.

  7. Çıktı verilerinin konumu için verilerin nerede depolanmış olması gerektiğini belirten seçeneği belirtin: HDFS veya Azure.

    Veriler Hadoop dağıtılmış dosya sisteminde (HDFS) varsa, yeni girdiğiniz hesap ve parola üzerinden erişilebilir olmalıdır.

    Veriler Azure'da ise depolama hesabının konumunu ve kimlik bilgilerini girin.

  8. HDFS seçeneğini seçtiysenizHDFS sunucu URI'si için önek olmadan HDInsight küme adını https:// belirtin.

  9. Azure seçeneğini seçtiyseniz, depolama hesabı adını ve modülün depolamaya bağlanmak için kullanabileceği kimlik bilgilerini girin.

    • Azure depolama hesabı adı: Azure hesabının adını yazın. Örneğin, depolama hesabının tam URL'si ise https://myshared.blob.core.windows.netyazın myshared.

    • Azure depolama anahtarı: Depolama hesabına erişmek için sağlanan anahtarı kopyalayıp yapıştırın.

    • Azure kapsayıcı adı: Küme için varsayılan kapsayıcıyı belirtin. İpuçları için, varsayılan kapsayıcıyı nasıl bula ilgili ipuçları için Teknik notlar bölümüne bakın.

  10. Önbelleğe alınmış sonuçları kullan: Denemeyi her çalıştırsanız Hive tablosu yeniden yazmaktan kaçınmak için bu seçeneği belirleyin. Modül parametrelerinde başka değişiklik yoksa deneme, hive tablosuna yalnızca modülün ilk çalıştırı veya verilerde değişiklik olduğunda yazar.

    Deneme her çalıştırıldığında Hive tablosu yazmak için Önbelleğe alınmış sonuçları kullan seçeneğinin seçimini kaldırın.

  11. Denemeyi çalıştırın.

Örnekler

Verileri Dışarı Aktarma modülünü kullanma örnekleri için bkz. Azure Yapay Zeka Galerisi.

Teknik notlar

Bu bölümde uygulama ayrıntıları, ipuçları ve sık sorulan soruların yanıtları yer almaktadır.

Sık sorulan sorular

Büyük veri kümeleri yazarken yetersiz bellek sorunlarından kaçınma

Bazen Hadoop kümesi varsayılan yapılandırması, MapReduce çalıştırmayı desteklemez. Örneğin, bu HDInsight Sürüm Notları'da varsayılan ayarlar dört düğümlü bir küme olarak tanımlanır.

MapReduce işinin gereksinimleri kullanılabilir kapasiteyi aşarsa Hive sorguları Yetersiz Bellek hata iletisi döndürür ve bu da Verileri Dışarı Aktarma işlemi başarısız olur. Bu durumda, Hive sorguları için varsayılan bellek ayırmayı değiştirebilirsiniz.

Aynı verilerin gereksiz bir şekilde yeniden yüklenmesini önleme

Denemeyi her çalıştırarak Hive tablosu oluşturmak istemiyorsanız Önbelleğe alınmış sonuçları kullan seçeneğini TRUE olarak belirleyin . Bu seçenek TRUE olarak ayarlanırsa, modül denemenin daha önce çalıştırıp çalıştırma olmadığını ve önceki bir çalıştırmanın bulunıp buluna olmadığını kontrol eder, yazma işlemi gerçekleştirlanmaz.

Kullanım ipuçları

Küme için varsayılan kapsayıcıyı bulmak zor olabilir. İşte bazı ipuçları:

  • Kümenizi varsayılan ayarları kullanarak oluşturduysanız, kümenin oluşturularak aynı zamanda aynı adla bir kapsayıcı oluşturulur. Bu kapsayıcı, küme için varsayılan kapsayıcıdır.

  • Kümeyi ÖZEL OLUŞTUR seçeneğini kullanarak oluşturduysanız , varsayılan kapsayıcıyı seçmek için size iki seçenek verildi.

    Mevcut kapsayıcı: Mevcut bir kapsayıcıyı seçtiysanız, bu kapsayıcı küme için varsayılan depolama kapsayıcısıdır.

    Varsayılan kapsayıcı oluştur: Bu seçeneği seçtiyseniz kümeyle aynı adı alan bir kapsayıcı oluşturulur ve bu kapsayıcı adını küme için varsayılan kapsayıcı olarak belirtmeniz gerekir.

Modül parametreleri

Name Aralık Tür Varsayılan Description
Veri kaynağı Liste Veri kaynağı veya havuz Azure Blob Depolama Veri kaynağı HTTP, FTP, anonim HTTPS veya FTPS, Azure BLOB depolamadaki bir dosya, Azure tablosu, Azure SQL Veritabanı, Hive tablosu veya OData uç noktası olabilir.
Hive tablo adı herhangi biri Dize yok Hive'daki tablonun adı
HCatalog sunucusu URI'si herhangi biri Dize yok Templeton uç noktası
Hadoop kullanıcı hesabı adı herhangi biri Dize yok Hadoop HDFS/HDInsight kullanıcı adı
Hadoop kullanıcı hesabı parolası herhangi biri Securestring yok Hadoop HDFS/HDInsight parolası
Çıkış verisi konumu herhangi biri DataLocation HDFS outputDir için HDFS veya Azure belirtme
HDFS sunucu URI'si herhangi biri Dize yok HDFS rest uç noktası
Azure depolama hesabı adı herhangi biri Dize yok Azure depolama hesabı adı
Azure depolama anahtarı herhangi biri Securestring yok Azure depolama anahtarı
Azure kapsayıcı adı herhangi biri Dize yok Azure kapsayıcı adı
Önbelleğe alınmış sonuçları kullanma TRUE/FALSE Boole FALSE Modül yalnızca geçerli önbellek yoksa yürütülür; aksi takdirde, önceki yürütmeden önbelleğe alınmış verileri kullanın.

Özel durumlar

Özel durum Description
Hata 0027 İki nesne aynı boyutta olması gerektir ancak aynı boyutta değil olduğunda özel durum oluşur.
Hata 0003 Bir veya daha fazla giriş null veya boşsa özel durum oluşur.
Hata 0029 Geçersiz bir URI geçir olduğunda özel durum oluşur.
Hata 0030 içinde bir dosya indirilenemay olduğunda özel durum oluşur.
Hata 0002 Bir veya daha fazla parametre ayrıştırılana veya belirtilen türden hedef yöntemin gerekli türüne dönüştürülememesi bir özel durum oluşur.
Hata 0009 Azure depolama hesabı adı veya kapsayıcı adı yanlış belirtilirse özel durum oluşur.
Hata 0048 Bir dosyanın açılması mümkün değilken bir özel durum oluşur.
Hata 0046 Belirtilen yolda dizin oluşturulamaysa özel durum oluşur.
Hata 0049 Bir dosyayı ayrıştırmak mümkün değilken bir özel durum oluşur.

Studio (klasik) modüllerine özgü hataların listesi için bkz. Machine Learning kodları.

API özel durumlarının listesi için bkz. Machine Learning REST API Kodları.

Ayrıca bkz.

Verileri İçeri Aktarma
Verileri Dışarı Aktarma
Azure SQL Veritabanı
Azure Blob Depolama
Azure Tablosuna Aktarma