Hive Sorgusuna Aktarma

Makale
05/06/2019

Önemli

Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.

1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.

Makine öğrenmesi projelerini ML Studio'dan (klasik) Azure Machine Learning.
Daha fazla bilgi Azure Machine Learning.

ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.

Not

Uygulama: Machine Learning Studio (yalnızca klasik)

Benzer sürükle ve bırak modülleri tasarımcıda da Azure Machine Learning kullanılabilir.

Bu makalede, Machine Learning Studio'daki (klasik) Verileri Dışarı Aktar modülünde Verileri Hive'a dışarı aktar seçeneğinin nasıl kullanımı açıklanmıştır. Bu seçenek, çok büyük veri kümeleriyle çalışırken ve makine öğrenmesi denemesi verilerinizi bir Hadoop kümesine veya HDInsight dağıtılmış depolama alanına kaydetmek istediğiniz zaman kullanışlıdır. Ayrıca, ara sonuçları veya diğer verileri Hadoop'a dışarı aktararak bir iş kullanarak MapReduce de iyi olabilir.

Verileri Hive'a dışarı aktarma

Verileri Dışarı Aktarma modülünü denemenize ekleyin. Bu modülü Machine Learning Studio'daki (klasik) Veri Girişi ve Çıkışı kategorisinde bulabilirsiniz.

Bağlan dışarı aktarmayı istediğiniz veri kümesine aktarın.
Veri kaynağı için HiveSorgusu'nı seçin.
Hive tablo adı için veri kümesinde depolanacak Hive tablosu adını yazın.
HCatalog sunucusu URI'sı metin kutusuna kümenizin tam adını yazın.

Örneğin, adına sahip bir küme oluşturduysanız mycluster001şu biçimi kullanın:

https://mycluster001.azurehdinsight.net
Hadoop kullanıcı hesabı adı metin kutusuna kümeyi sağlarken kullanılan Hadoop kullanıcı hesabını yapıştırın.
Hadoop kullanıcı hesabı parolası metin kutusuna kümeyi sağlarken kullanılan kimlik bilgilerini yazın.
Çıktı verilerinin konumu için verilerin nerede depolanmış olması gerektiğini belirten seçeneği belirtin: HDFS veya Azure.

Veriler Hadoop dağıtılmış dosya sisteminde (HDFS) varsa, yeni girdiğiniz hesap ve parola üzerinden erişilebilir olmalıdır.

Veriler Azure'da ise depolama hesabının konumunu ve kimlik bilgilerini girin.
HDFS seçeneğini seçtiysenizHDFS sunucu URI'si için önek olmadan HDInsight küme adını https:// belirtin.
Azure seçeneğini seçtiyseniz, depolama hesabı adını ve modülün depolamaya bağlanmak için kullanabileceği kimlik bilgilerini girin.
- Azure depolama hesabı adı: Azure hesabının adını yazın. Örneğin, depolama hesabının tam URL'si ise https://myshared.blob.core.windows.netyazın myshared.
- Azure depolama anahtarı: Depolama hesabına erişmek için sağlanan anahtarı kopyalayıp yapıştırın.
- Azure kapsayıcı adı: Küme için varsayılan kapsayıcıyı belirtin. İpuçları için, varsayılan kapsayıcıyı nasıl bula ilgili ipuçları için Teknik notlar bölümüne bakın.
Önbelleğe alınmış sonuçları kullan: Denemeyi her çalıştırsanız Hive tablosu yeniden yazmaktan kaçınmak için bu seçeneği belirleyin. Modül parametrelerinde başka değişiklik yoksa deneme, hive tablosuna yalnızca modülün ilk çalıştırı veya verilerde değişiklik olduğunda yazar.

Deneme her çalıştırıldığında Hive tablosu yazmak için Önbelleğe alınmış sonuçları kullan seçeneğinin seçimini kaldırın.
Denemeyi çalıştırın.

Örnekler

Verileri Dışarı Aktarma modülünü kullanma örnekleri için bkz. Azure Yapay Zeka Galerisi.

Gelişmiş Analiz süreci ve teknolojisi uygulamalı: HDInsight Hadoop kümelerini kullanma: Bu makale, Hive kullanarak küme oluşturma, verileri karşıya yükleme ve Studio'dan (klasik) verileri çağırma hakkında ayrıntılı bir kılavuz sağlar.

Teknik notlar

Bu bölümde uygulama ayrıntıları, ipuçları ve sık sorulan soruların yanıtları yer almaktadır.

Sık sorulan sorular

Büyük veri kümeleri yazarken yetersiz bellek sorunlarından kaçınma

Bazen Hadoop kümesi varsayılan yapılandırması, MapReduce çalıştırmayı desteklemez. Örneğin, bu HDInsight Sürüm Notları'da varsayılan ayarlar dört düğümlü bir küme olarak tanımlanır.

MapReduce işinin gereksinimleri kullanılabilir kapasiteyi aşarsa Hive sorguları Yetersiz Bellek hata iletisi döndürür ve bu da Verileri Dışarı Aktarma işlemi başarısız olur. Bu durumda, Hive sorguları için varsayılan bellek ayırmayı değiştirebilirsiniz.

Aynı verilerin gereksiz bir şekilde yeniden yüklenmesini önleme

Denemeyi her çalıştırarak Hive tablosu oluşturmak istemiyorsanız Önbelleğe alınmış sonuçları kullan seçeneğini TRUE olarak belirleyin . Bu seçenek TRUE olarak ayarlanırsa, modül denemenin daha önce çalıştırıp çalıştırma olmadığını ve önceki bir çalıştırmanın bulunıp buluna olmadığını kontrol eder, yazma işlemi gerçekleştirlanmaz.

Kullanım ipuçları

Küme için varsayılan kapsayıcıyı bulmak zor olabilir. İşte bazı ipuçları:

Kümenizi varsayılan ayarları kullanarak oluşturduysanız, kümenin oluşturularak aynı zamanda aynı adla bir kapsayıcı oluşturulur. Bu kapsayıcı, küme için varsayılan kapsayıcıdır.
Kümeyi ÖZEL OLUŞTUR seçeneğini kullanarak oluşturduysanız , varsayılan kapsayıcıyı seçmek için size iki seçenek verildi.

Mevcut kapsayıcı: Mevcut bir kapsayıcıyı seçtiysanız, bu kapsayıcı küme için varsayılan depolama kapsayıcısıdır.

Varsayılan kapsayıcı oluştur: Bu seçeneği seçtiyseniz kümeyle aynı adı alan bir kapsayıcı oluşturulur ve bu kapsayıcı adını küme için varsayılan kapsayıcı olarak belirtmeniz gerekir.

Modül parametreleri

Name	Aralık	Tür	Varsayılan	Description
Veri kaynağı	Liste	Veri kaynağı veya havuz	Azure Blob Depolama	Veri kaynağı HTTP, FTP, anonim HTTPS veya FTPS, Azure BLOB depolamadaki bir dosya, Azure tablosu, Azure SQL Veritabanı, Hive tablosu veya OData uç noktası olabilir.
Hive tablo adı	herhangi biri	Dize	yok	Hive'daki tablonun adı
HCatalog sunucusu URI'si	herhangi biri	Dize	yok	Templeton uç noktası
Hadoop kullanıcı hesabı adı	herhangi biri	Dize	yok	Hadoop HDFS/HDInsight kullanıcı adı
Hadoop kullanıcı hesabı parolası	herhangi biri	Securestring	yok	Hadoop HDFS/HDInsight parolası
Çıkış verisi konumu	herhangi biri	DataLocation	HDFS	outputDir için HDFS veya Azure belirtme
HDFS sunucu URI'si	herhangi biri	Dize	yok	HDFS rest uç noktası
Azure depolama hesabı adı	herhangi biri	Dize	yok	Azure depolama hesabı adı
Azure depolama anahtarı	herhangi biri	Securestring	yok	Azure depolama anahtarı
Azure kapsayıcı adı	herhangi biri	Dize	yok	Azure kapsayıcı adı
Önbelleğe alınmış sonuçları kullanma	TRUE/FALSE	Boole	FALSE	Modül yalnızca geçerli önbellek yoksa yürütülür; aksi takdirde, önceki yürütmeden önbelleğe alınmış verileri kullanın.

Özel durumlar

Özel durum	Description
Hata 0027	İki nesne aynı boyutta olması gerektir ancak aynı boyutta değil olduğunda özel durum oluşur.
Hata 0003	Bir veya daha fazla giriş null veya boşsa özel durum oluşur.
Hata 0029	Geçersiz bir URI geçir olduğunda özel durum oluşur.
Hata 0030	içinde bir dosya indirilenemay olduğunda özel durum oluşur.
Hata 0002	Bir veya daha fazla parametre ayrıştırılana veya belirtilen türden hedef yöntemin gerekli türüne dönüştürülememesi bir özel durum oluşur.
Hata 0009	Azure depolama hesabı adı veya kapsayıcı adı yanlış belirtilirse özel durum oluşur.
Hata 0048	Bir dosyanın açılması mümkün değilken bir özel durum oluşur.
Hata 0046	Belirtilen yolda dizin oluşturulamaysa özel durum oluşur.
Hata 0049	Bir dosyayı ayrıştırmak mümkün değilken bir özel durum oluşur.

Studio (klasik) modüllerine özgü hataların listesi için bkz. Machine Learning kodları.

API özel durumlarının listesi için bkz. Machine Learning REST API Kodları.

Ayrıca bkz.

Verileri İçeri Aktarma
Verileri Dışarı Aktarma
Azure SQL Veritabanı
Azure Blob Depolama
Azure Tablosuna Aktarma

Aracılığıyla paylaş