Aracılığıyla paylaş


HDInsight'ta Apache Hadoop ile Apache Ambari Hive Görünümünü Kullanma

Apache Ambari Hive Görünümünü kullanarak Hive sorgularını çalıştırmayı öğrenin. Hive Görünümü, web tarayıcınızdan Hive sorguları yazmanızı, iyileştirmenizi ve çalıştırmanızı sağlar.

Önkoşullar

HDInsight üzerinde hadoop kümesi. Bkz . Linux'ta HDInsight'ı kullanmaya başlama.

Hive sorgusu çalıştırma

  1. Azure portalda kümenizi seçin. Yönergeler için bkz . Kümeleri listeleme ve gösterme. Küme yeni bir portal görünümünde açılır.

  2. Küme panolarından Ambari görünümleri'ne tıklayın. Kimlik doğrulaması yapmanız istendiğinde, kümeyi oluştururken sağladığınız küme oturum açma (varsayılan admin) hesap adını ve parolasını kullanın. Ayrıca, tarayıcınızda kümenizin adı olan konumuna CLUSTERNAME da gidebilirsinizhttps://CLUSTERNAME.azurehdinsight.net/#/main/views.

  3. Görünüm listesinden Hive Görünümü'nü seçin.

    Apache Ambari select Apache Hive view.

    Hive görünüm sayfası aşağıdaki görüntüye benzer:

    Image of the query worksheet for the Hive view.

  4. Sorgu sekmesinden aşağıdaki HiveQL deyimlerini çalışma sayfasına yapıştırın:

    DROP TABLE log4jLogs;
    CREATE EXTERNAL TABLE log4jLogs(
        t1 string,
        t2 string,
        t3 string,
        t4 string,
        t5 string,
        t6 string,
        t7 string)
    ROW FORMAT DELIMITED FIELDS TERMINATED BY ' '
    STORED AS TEXTFILE LOCATION '/example/data/';
    SELECT t4 AS loglevel, COUNT(*) AS count FROM log4jLogs
        WHERE t4 = '[ERROR]'
        GROUP BY t4;
    

    Bu deyimler aşağıdaki eylemleri gerçekleştirir:

    Deyim Açıklama
    DROP TABLE Tablonun zaten mevcut olması durumunda tabloyu ve veri dosyasını siler.
    DıŞ TABLO OLUŞTURMA Hive'da yeni bir "dış" tablo oluşturur. Dış tablolar yalnızca Hive'da tablo tanımını depolar. Veriler özgün konumda bırakılır.
    SATıR BIÇIMI Verilerin nasıl biçimlendirildiğini gösterir. Bu durumda, her günlükteki alanlar bir boşlukla ayrılır.
    TEXTFILE KONUMU OLARAK DEPOLANıR Verilerin nerede depolandığını ve metin olarak depolandığını gösterir.
    SELECT t4 sütununun [ERROR] değerini içerdiği tüm satırların sayısını seçer.

    Önemli

    Veritabanı seçimini varsayılan olarak bırakın. Bu belgedeki örneklerde HDInsight'ta bulunan varsayılan veritabanı kullanılır.

  5. Sorguyu başlatmak için çalışma sayfasının altındaki Yürüt'e tıklayın. Düğme turuncuya dönüşür ve metin Durdur olarak değişir.

  6. Sorgu tamamlandıktan sonra Sonuçlar sekmesi işlemin sonuçlarını görüntüler. Aşağıdaki metin sorgunun sonucudur:

    loglevel       count
    [ERROR]        3
    

    İşin oluşturduğu günlük bilgilerini görüntülemek için LOG sekmesini kullanabilirsiniz.

    İpucu

    Sonuçlar sekmesinin altındaki Eylemler açılan iletişim kutusundan sonuçları indirin veya kaydedin.

Görsel açıklama

Sorgu planının görselleştirmesini görüntülemek için çalışma sayfasının altındaki Görsel Açıklama sekmesini seçin.

Sorgunun Görsel Açıklama görünümü, karmaşık sorguların akışını anlamanıza yardımcı olabilir.

Tez Kullanıcı Arabirimi

Sorgunun Tez kullanıcı arabirimini görüntülemek için çalışma sayfasının altındaki Tez ui sekmesini seçin.

Önemli

Tez, tüm sorguları çözümlemek için kullanılmaz. Tez kullanmadan birçok sorgu çözümleyebilirsiniz.

İş geçmişini görüntüleme

İşler sekmesinde Hive sorgularının geçmişi görüntülenir.

Apache Hive view jobs tab history.

Veritabanı tabloları

Hive veritabanındaki tablolarla çalışmak için Tablolar sekmesini kullanabilirsiniz.

Image of the Apache Hive tables tab.

Kaydedilen sorgular

Sorgu sekmesinden isteğe bağlı olarak sorguları kaydedebilirsiniz. Bir sorguyu kaydettikten sonra, Kaydedilen Sorgular sekmesinden yeniden kullanabilirsiniz.

Apache Hive views saved queries tab.

İpucu

Kaydedilen sorgular varsayılan küme depolama alanında depolanır. Kaydedilen sorguları yolunun /user/<username>/hive/scriptsaltında bulabilirsiniz. Bunlar düz metin .hql dosyaları olarak depolanır.

Kümeyi siler ancak depolamayı saklarsanız sorguları almak için Azure Depolama Gezgini veya Data Lake Depolama Explorer (Azure Portalı'ndan) gibi bir yardımcı program kullanabilirsiniz.

Kullanıcı tanımlı işlevler

Hive'ı kullanıcı tanımlı işlevler (UDF) aracılığıyla genişletebilirsiniz. HiveQL'de kolayca modellenmeyecek işlevleri veya mantığı uygulamak için UDF kullanın.

Hive Görünümünün en üstündeki UDF sekmesini kullanarak bir UDF kümesi bildirin ve kaydedin. Bu UDF'ler Sorgu Düzenleyicisi ile kullanılabilir.

Apache Hive view UDFs tab display.

Sorgu Düzenleyicisi en altında udfs ekle düğmesi görüntülenir. Bu girdi, Hive Görünümünde tanımlanan UDF'lerin açılan listesini görüntüler. UDF seçildiğinde, UDF'yi etkinleştirmek için sorgunuza HiveQL deyimleri eklenir.

Örneğin, aşağıdaki özelliklere sahip bir UDF tanımladıysanız:

  • Kaynak adı: myudfs

  • Kaynak yolu: /myudfs.jar

  • UDF adı: myawesomeudf

  • UDF sınıf adı: com.myudfs.Awesome

udfs Ekle düğmesi kullanıldığında myudfs adlı bir girdi görüntülenir ve bu kaynak için tanımlanan her UDF için başka bir açılan liste görüntülenir. Bu durumda, myawesomeudf. Bu girişin seçilmesi sorgunun başına aşağıdakileri ekler:

add jar /myudfs.jar;
create temporary function myawesomeudf as 'com.myudfs.Awesome';

Ardından sorgunuzda UDF'yi kullanabilirsiniz. Örneğin, SELECT myawesomeudf(name) FROM people;.

HDInsight üzerinde Hive ile UDF'leri kullanma hakkında daha fazla bilgi için aşağıdaki makalelere bakın:

Hive ayarları

Tez (varsayılan) olan Hive yürütme altyapısını MapReduce olarak değiştirme gibi çeşitli Hive ayarlarını değiştirebilirsiniz.

Sonraki adımlar

HDInsight üzerinde Hive hakkında genel bilgi için: