Hızlı Başlangıç: Azure portalını kullanarak Azure HDInsight'ta Apache Spark kümesi oluşturma

Makale
03/15/2024

Bu hızlı başlangıçta Azure portalını kullanarak Azure HDInsight'ta bir Apache Spark kümesi oluşturacaksınız. Ardından bir Jupyter Not Defteri oluşturur ve Apache Hive tablolarında Spark SQL sorguları çalıştırmak için bunu kullanırsınız. Azure HDInsight kuruluşlara yönelik, yönetilen, tam spektrumlu ve açık kaynaklı bir analiz hizmetidir. HDInsight için Apache Spark çerçevesi, bellek içi işlemeyi kullanarak hızlı veri analizi ve küme bilişimi sağlar. Jupyter Notebook verilerinizle etkileşim kurmanıza, kodu markdown metniyle birleştirmenize ve basit görselleştirmeler yapmanıza olanak tanır.

Kullanılabilir yapılandırmaların ayrıntılı açıklamaları için bkz . HDInsight'ta kümeleri ayarlama. Küme oluşturmak için portalın kullanımı hakkında daha fazla bilgi için bkz . Portalda küme oluşturma.

Birden çok kümeyi birlikte kullanıyorsanız bir sanal ağ oluşturmak isteyebilirsiniz; Spark kümesi kullanıyorsanız Hive Warehouse Bağlan veya kullanmak isteyebilirsiniz. Daha fazla bilgi için bkz. Azure HDInsight için sanal ağ planlama ve Apache Spark ile Apache Hive'ı Hive Warehouse Bağlan veya tümleştirme.

Önemli

İster kullanın, ister kullanmayın, HDInsight kümeleri faturalaması dakika başına eşit olarak dağıtılmıştır. Kullanmayı bitirdikten sonra kümenizi sildiğinizden emin olun. Daha fazla bilgi için bu makalenin Kaynakları temizleme bölümüne bakın.

Önkoşullar

Etkin aboneliği olan bir Azure hesabı. Ücretsiz hesap oluşturun.

HDInsight'ta Apache Spark kümesi oluşturma

Azure portalını kullanarak küme depolama alanı olarak Azure Depolama Blobları kullanan bir HDInsight kümesi oluşturursunuz. Data Lake Storage Gen2'yi kullanma hakkında daha fazla bilgi için bkz. Hızlı başlangıç: HDInsight'ta kümeleri ayarlama.

Azure Portal’ında oturum açın.
Üstteki menüden + Kaynak oluştur'u seçin.
HDInsight> kümesi oluşturma sayfasına gitmek için Analiz Azure HDInsight'ı seçin.

Temel Bilgiler sekmesinden aşağıdaki bilgileri sağlayın:

Özellik	Açıklama
Abonelik	Açılan listeden küme için kullanılan Azure aboneliğini seçin.
Kaynak grubu	Açılan listeden mevcut kaynak grubunuzu seçin veya Yeni oluştur'u seçin.
Küme adı	Genel olarak benzersiz bir ad girin.
Bölge	Açılan listeden kümenin oluşturulduğu bölgeyi seçin.
Availability zone	İsteğe bağlı - kümenizin dağıtılacağı bir kullanılabilirlik alanı belirtin
Küme türü	Liste açmak için küme türünü seçin. Listeden Spark'ı seçin.
Küme sürümü	Küme türü seçildikten sonra bu alan varsayılan sürümle otomatik olarak doldurulur.
Küme oturum açma kullanıcı adı	Küme oturum açma kullanıcı adını girin. Varsayılan ad yöneticidir. Bu hesabı, hızlı başlangıcın ilerleyen bölümlerinde Jupyter Not Defteri'nde oturum açmak için kullanırsınız.
Küme oturum açma parolası	Küme oturum açma parolasını girin.
Secure Shell (SSH) kullanıcı adı	SSH kullanıcı adını girin. Bu hızlı başlangıç için kullanılan SSH kullanıcı adı, sshuser şeklindedir. Varsayılan olarak bu hesap, Küme Oturum Açma kullanıcı adı hesabıyla aynı parolayı paylaşır.

Screenshot shows Create HDInsight cluster with the Basics tab selected.

Depolama sayfasına devam etmek için İleri: Depolama'ı>>seçin.

Depolama bölümünde aşağıdaki değerleri sağlayın:

Özellik	Açıklama
Birincil depolama türü	Azure Depolama varsayılan değerini kullanın.
Seçim yöntemi	Listeden seç varsayılan değerini kullanın.
Birincil depolama hesabı	Otomatik doldurulan değeri kullanın.
Kapsayıcı	Otomatik doldurulan değeri kullanın.

Screenshot shows Create HDInsight cluster with the Storage tab selected.

Devam etmek için Gözden Geçir ve oluştur'u seçin.

Gözden geçir ve oluştur'un altında Oluştur'u seçin. Kümenin oluşturulması yaklaşık 20 dakika sürer. Sonraki oturumuna devam etmeden önce küme oluşturulması gerekir.

HDInsight kümeleri oluştururken bir sorunla karşılaşırsanız, bunu yapmak için doğru izinlere sahip olmayabilirsiniz. Daha fazla bilgi için bkz. Erişim denetimi gereksinimleri.

Jupyter Notebook oluşturma

Jupyter Notebook, çeşitli programlama dillerini destekleyen etkileşimli bir not defteri ortamıdır. Not defteri, verilerle etkileşim kurmanıza, kodu markdown metniyle birleştirmenize ve basit görselleştirmeler gerçekleştirmenize olanak sağlar.

Bir web tarayıcısından adresine gidin https://CLUSTERNAME.azurehdinsight.net/jupyter; burada CLUSTERNAME kümenizin adıdır. İstendiğinde, küme için küme oturum açma kimlik bilgilerini girin.
Yeni>PySpark seçeneklerini belirleyerek bir not defteri oluşturun.

Untitled(Untitled.pynb) adıyla yeni bir not defteri oluşturulur ve açılır.

Apache Spark SQL deyimlerini çalıştırma

SQL (Yapılandırılmış Sorgu Dili), veri sorgulama ve tanımlama için en çok kullanılan dildir. Bilinen SQL söz dizimini kullanan Spark SQL, yapısal verileri işleyen bir Apache Spark uzantısı olarak çalışır.

Çekirdeğin hazır olduğunu doğrulayın. Not defterinde çekirdek adının yanında boş bir daire görmeniz, çekirdeğin hazır olduğu anlamına gelir. Dolu daire, çekirdeğin meşgul olduğunu belirtir.

Not defterini ilk kez başlattığınızda, çekirdek arka planda birkaç görev gerçekleştirir. Çekirdeğin hazır olmasını bekleyin.
Aşağıdaki kodu boş bir hücreye yapıştırın ve kodu çalıştırmak için SHIFT + ENTER tuşlarına basın. Komut, kümedeki Hive tablolarını listeler:
```
%%sql
SHOW TABLES
```
HDInsight kümenizle Jupyter Notebook kullandığınızda, Spark SQL kullanarak Hive sorguları çalıştırmak için kullanabileceğiniz bir ön ayar sqlContext elde edersiniz. %%sql, Hive sorgusunu çalıştırmak için Jupyter Not Defteri’ne sqlContext ön ayarını kullanmasını söyler. Sorgu, varsayılan olarak tüm HDInsight kümelerinde sağlanan Hive tablosundaki (hivesampletable) ilk 10 satırı getirir. Sonuçları almak 30 saniye kadar sürer. Çıktı şuna benzer:

is quickstart." border="true":::

Jupyter’de bir sorguyu her çalıştırdığınızda web tarayıcınızın pencere başlığında not defteri başlığı ile birlikte (Meşgul) durumu gösterilir. Ayrıca sağ üst köşedeki PySpark metninin yanında içi dolu bir daire görürsünüz.
hivesampletable komutundaki verileri görmek için başka bir sorgu çalıştırın.
```
%%sql
SELECT * FROM hivesampletable LIMIT 10
```
Sorgu çıkışının görüntülenmesi için ekranın yenilenmesi gerekir.

Insight" border="true":::
Not defterindeki Dosya menüsünden Kapat ve Durdur’u seçin. Not defterini kapatmak, küme kaynaklarını serbest bırakır.

Kaynakları temizleme

HDInsight verilerinizi Azure Depolama veya Azure Data Lake Depolama kaydeder, böylece kullanılmadığında kümeyi güvenle silebilirsiniz. Kullanımda olmasa bile HDInsight kümesi için de ücretlendirilirsiniz. Küme ücretleri depolama ücretlerinden çok daha fazla olduğundan, kullanımda olmayan kümeleri silmek ekonomik bir anlam ifade eder. Sonraki adımlar içinde listelenen öğretici üzerinde hemen çalışmayı planlıyorsanız, kümeyi tutmak isteyebilirsiniz.

Azure portalına geri dönüp Sil’i seçin.

Azure portal delete an HDInsight cluster. sight cluster" border="true":::

Kaynak grubu adını seçerek de kaynak grubu sayfasını açabilir ve sonra Kaynak grubunu sil’i seçebilirsiniz. Kaynak grubunu silerek hem HDInsight kümesini hem de varsayılan depolama hesabını silersiniz.

Sonraki adımlar

Bu hızlı başlangıçta HDInsight'ta Apache Spark kümesi oluşturmayı ve temel bir Spark SQL sorgusu çalıştırmayı öğrendiniz. Örnek veriler üzerinde etkileşimli sorgular çalıştırmak için HDInsight kümesi kullanmayı öğrenmek için sonraki öğreticiye ilerleyin.

Apache Spark'ta etkileşimli sorgular çalıştırma