Hive Sorgusuna Aktarma
Önemli
Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.
1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.
- Makine öğrenmesi projelerini ML Studio'dan (klasik) Azure Machine Learning.
- Daha fazla bilgi Azure Machine Learning.
ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.
Not
Uygulama: Machine Learning Studio (yalnızca klasik)
Benzer sürükle ve bırak modülleri tasarımcıda da Azure Machine Learning kullanılabilir.
Bu makalede, Machine Learning Studio'daki (klasik) Verileri Dışarı Aktar modülünde Verileri Hive'a dışarı aktar seçeneğinin nasıl kullanımı açıklanmıştır. Bu seçenek, çok büyük veri kümeleriyle çalışırken ve makine öğrenmesi denemesi verilerinizi bir Hadoop kümesine veya HDInsight dağıtılmış depolama alanına kaydetmek istediğiniz zaman kullanışlıdır. Ayrıca, ara sonuçları veya diğer verileri Hadoop'a dışarı aktararak bir iş kullanarak MapReduce de iyi olabilir.
Verileri Hive'a dışarı aktarma
Verileri Dışarı Aktarma modülünü denemenize ekleyin. Bu modülü Machine Learning Studio'daki (klasik) Veri Girişi ve Çıkışı kategorisinde bulabilirsiniz.
Bağlan dışarı aktarmayı istediğiniz veri kümesine aktarın.
Veri kaynağı için HiveSorgusu'nı seçin.
Hive tablo adı için veri kümesinde depolanacak Hive tablosu adını yazın.
HCatalog sunucusu URI'sı metin kutusuna kümenizin tam adını yazın.
Örneğin, adına sahip bir küme oluşturduysanız
mycluster001
şu biçimi kullanın:https://mycluster001.azurehdinsight.net
Hadoop kullanıcı hesabı adı metin kutusuna kümeyi sağlarken kullanılan Hadoop kullanıcı hesabını yapıştırın.
Hadoop kullanıcı hesabı parolası metin kutusuna kümeyi sağlarken kullanılan kimlik bilgilerini yazın.
Çıktı verilerinin konumu için verilerin nerede depolanmış olması gerektiğini belirten seçeneği belirtin: HDFS veya Azure.
Veriler Hadoop dağıtılmış dosya sisteminde (HDFS) varsa, yeni girdiğiniz hesap ve parola üzerinden erişilebilir olmalıdır.
Veriler Azure'da ise depolama hesabının konumunu ve kimlik bilgilerini girin.
HDFS seçeneğini seçtiysenizHDFS sunucu URI'si için önek olmadan HDInsight küme adını
https://
belirtin.Azure seçeneğini seçtiyseniz, depolama hesabı adını ve modülün depolamaya bağlanmak için kullanabileceği kimlik bilgilerini girin.
Azure depolama hesabı adı: Azure hesabının adını yazın. Örneğin, depolama hesabının tam URL'si ise
https://myshared.blob.core.windows.net
yazınmyshared
.Azure depolama anahtarı: Depolama hesabına erişmek için sağlanan anahtarı kopyalayıp yapıştırın.
Azure kapsayıcı adı: Küme için varsayılan kapsayıcıyı belirtin. İpuçları için, varsayılan kapsayıcıyı nasıl bula ilgili ipuçları için Teknik notlar bölümüne bakın.
Önbelleğe alınmış sonuçları kullan: Denemeyi her çalıştırsanız Hive tablosu yeniden yazmaktan kaçınmak için bu seçeneği belirleyin. Modül parametrelerinde başka değişiklik yoksa deneme, hive tablosuna yalnızca modülün ilk çalıştırı veya verilerde değişiklik olduğunda yazar.
Deneme her çalıştırıldığında Hive tablosu yazmak için Önbelleğe alınmış sonuçları kullan seçeneğinin seçimini kaldırın.
Denemeyi çalıştırın.
Örnekler
Verileri Dışarı Aktarma modülünü kullanma örnekleri için bkz. Azure Yapay Zeka Galerisi.
- Gelişmiş Analiz süreci ve teknolojisi uygulamalı: HDInsight Hadoop kümelerini kullanma: Bu makale, Hive kullanarak küme oluşturma, verileri karşıya yükleme ve Studio'dan (klasik) verileri çağırma hakkında ayrıntılı bir kılavuz sağlar.
Teknik notlar
Bu bölümde uygulama ayrıntıları, ipuçları ve sık sorulan soruların yanıtları yer almaktadır.
Sık sorulan sorular
Büyük veri kümeleri yazarken yetersiz bellek sorunlarından kaçınma
Bazen Hadoop kümesi varsayılan yapılandırması, MapReduce çalıştırmayı desteklemez. Örneğin, bu HDInsight Sürüm Notları'da varsayılan ayarlar dört düğümlü bir küme olarak tanımlanır.
MapReduce işinin gereksinimleri kullanılabilir kapasiteyi aşarsa Hive sorguları Yetersiz Bellek hata iletisi döndürür ve bu da Verileri Dışarı Aktarma işlemi başarısız olur. Bu durumda, Hive sorguları için varsayılan bellek ayırmayı değiştirebilirsiniz.
Aynı verilerin gereksiz bir şekilde yeniden yüklenmesini önleme
Denemeyi her çalıştırarak Hive tablosu oluşturmak istemiyorsanız Önbelleğe alınmış sonuçları kullan seçeneğini TRUE olarak belirleyin . Bu seçenek TRUE olarak ayarlanırsa, modül denemenin daha önce çalıştırıp çalıştırma olmadığını ve önceki bir çalıştırmanın bulunıp buluna olmadığını kontrol eder, yazma işlemi gerçekleştirlanmaz.
Kullanım ipuçları
Küme için varsayılan kapsayıcıyı bulmak zor olabilir. İşte bazı ipuçları:
Kümenizi varsayılan ayarları kullanarak oluşturduysanız, kümenin oluşturularak aynı zamanda aynı adla bir kapsayıcı oluşturulur. Bu kapsayıcı, küme için varsayılan kapsayıcıdır.
Kümeyi ÖZEL OLUŞTUR seçeneğini kullanarak oluşturduysanız , varsayılan kapsayıcıyı seçmek için size iki seçenek verildi.
Mevcut kapsayıcı: Mevcut bir kapsayıcıyı seçtiysanız, bu kapsayıcı küme için varsayılan depolama kapsayıcısıdır.
Varsayılan kapsayıcı oluştur: Bu seçeneği seçtiyseniz kümeyle aynı adı alan bir kapsayıcı oluşturulur ve bu kapsayıcı adını küme için varsayılan kapsayıcı olarak belirtmeniz gerekir.
Modül parametreleri
Name | Aralık | Tür | Varsayılan | Description |
---|---|---|---|---|
Veri kaynağı | Liste | Veri kaynağı veya havuz | Azure Blob Depolama | Veri kaynağı HTTP, FTP, anonim HTTPS veya FTPS, Azure BLOB depolamadaki bir dosya, Azure tablosu, Azure SQL Veritabanı, Hive tablosu veya OData uç noktası olabilir. |
Hive tablo adı | herhangi biri | Dize | yok | Hive'daki tablonun adı |
HCatalog sunucusu URI'si | herhangi biri | Dize | yok | Templeton uç noktası |
Hadoop kullanıcı hesabı adı | herhangi biri | Dize | yok | Hadoop HDFS/HDInsight kullanıcı adı |
Hadoop kullanıcı hesabı parolası | herhangi biri | Securestring | yok | Hadoop HDFS/HDInsight parolası |
Çıkış verisi konumu | herhangi biri | DataLocation | HDFS | outputDir için HDFS veya Azure belirtme |
HDFS sunucu URI'si | herhangi biri | Dize | yok | HDFS rest uç noktası |
Azure depolama hesabı adı | herhangi biri | Dize | yok | Azure depolama hesabı adı |
Azure depolama anahtarı | herhangi biri | Securestring | yok | Azure depolama anahtarı |
Azure kapsayıcı adı | herhangi biri | Dize | yok | Azure kapsayıcı adı |
Önbelleğe alınmış sonuçları kullanma | TRUE/FALSE | Boole | FALSE | Modül yalnızca geçerli önbellek yoksa yürütülür; aksi takdirde, önceki yürütmeden önbelleğe alınmış verileri kullanın. |
Özel durumlar
Özel durum | Description |
---|---|
Hata 0027 | İki nesne aynı boyutta olması gerektir ancak aynı boyutta değil olduğunda özel durum oluşur. |
Hata 0003 | Bir veya daha fazla giriş null veya boşsa özel durum oluşur. |
Hata 0029 | Geçersiz bir URI geçir olduğunda özel durum oluşur. |
Hata 0030 | içinde bir dosya indirilenemay olduğunda özel durum oluşur. |
Hata 0002 | Bir veya daha fazla parametre ayrıştırılana veya belirtilen türden hedef yöntemin gerekli türüne dönüştürülememesi bir özel durum oluşur. |
Hata 0009 | Azure depolama hesabı adı veya kapsayıcı adı yanlış belirtilirse özel durum oluşur. |
Hata 0048 | Bir dosyanın açılması mümkün değilken bir özel durum oluşur. |
Hata 0046 | Belirtilen yolda dizin oluşturulamaysa özel durum oluşur. |
Hata 0049 | Bir dosyayı ayrıştırmak mümkün değilken bir özel durum oluşur. |
Studio (klasik) modüllerine özgü hataların listesi için bkz. Machine Learning kodları.
API özel durumlarının listesi için bkz. Machine Learning REST API Kodları.
Ayrıca bkz.
Verileri İçeri Aktarma
Verileri Dışarı Aktarma
Azure SQL Veritabanı
Azure Blob Depolama
Azure Tablosuna Aktarma