Bagikan melalui


Mengonfigurasi katalog Delta Lake

Catatan

Kami akan menghentikan Azure HDInsight di AKS pada 31 Januari 2025. Sebelum 31 Januari 2025, Anda harus memigrasikan beban kerja anda ke Microsoft Fabric atau produk Azure yang setara untuk menghindari penghentian tiba-tiba beban kerja Anda. Kluster yang tersisa pada langganan Anda akan dihentikan dan dihapus dari host.

Hanya dukungan dasar yang akan tersedia hingga tanggal penghentian.

Penting

Fitur ini masih dalam mode pratinjau. Ketentuan Penggunaan Tambahan untuk Pratinjau Microsoft Azure mencakup lebih banyak persyaratan hukum yang berlaku untuk fitur Azure yang dalam versi beta, dalam pratinjau, atau belum dirilis ke ketersediaan umum. Untuk informasi tentang pratinjau khusus ini, lihat Azure HDInsight pada informasi pratinjau AKS. Untuk pertanyaan atau saran fitur, kirimkan permintaan di AskHDInsight dengan detail dan ikuti kami untuk pembaruan lebih lanjut di Komunitas Azure HDInsight.

Artikel ini memberikan gambaran umum tentang cara mengonfigurasi katalog Delta Lake di kluster Trino Anda dengan HDInsight di AKS. Anda dapat menambahkan katalog baru dengan memperbarui templat ARM kluster Anda kecuali katalog apache Hive, yang dapat Anda tambahkan selama pembuatan kluster Trino di portal Azure.

Prasyarat

Langkah-langkah untuk mengonfigurasi katalog Delta Lake

  1. Konfigurasikan metastore Apache Hive untuk definisi tabel dan lokasi jika Anda belum mengonfigurasi metastore.

    Konfigurasikan database metastore Apache Hive eksternal dan direktori penyimpanan default dalam config.properties file (informasi selengkapnya tentang konfigurasi Trino):

    "serviceConfigsProfiles": [
        {
            "serviceName": "trino",
            "configs": [
                {
                    "component": "common",
                    "files": [
                        {
                            "fileName": "config.properties",
                            "values": {
                                "hive.metastore.hdi.metastoreDbConnectionURL": "jdbc:sqlserver://{{DATABASE_SERVER}}.database.windows.net;database={{DATABASE_NAME}};encrypt=true;trustServerCertificate=true;create=false;loginTimeout=30",
                                "hive.metastore.hdi.metastoreDbConnectionUserName": "{{DATABASE_USER_NAME}}",
                                "hive.metastore.hdi.metastoreDbConnectionPasswordSecret": "{{SECRET_REFERENCE_NAME}}",
                                "hive.metastore.hdi.metastoreWarehouseDir": "abfs://{{AZURE_STORAGE_CONTAINER}}@{{AZURE_STORAGE_ACCOUNT_NAME}}.dfs.core.windows.net/hive/warehouse"
                            }
                        }
                    ]
                }
            ]
        }
    ]
    "secretsProfile": {
            "keyVaultResourceId": "/subscriptions/{USER_SUBSCRIPTION_ID}/resourceGroups/{USER_RESOURCE_GROUP}/providers/Microsoft.KeyVault/vaults/{USER_KEYVAULT_NAME}",
            "secrets": [
                {
                    "referenceName": "{{SECRET_REFERENCE_NAME}}",
                    "type": "Secret",
                    "keyVaultObjectName": "myCredSecret"
                }                        ]
        },
    

    Catatan

    referenceName harus cocok dengan nilai yang disediakan dalam hive.metastore.hdi.metastoreDbConnectionPasswordSecret

  2. Perbarui templat ARM kluster Anda untuk menambahkan file konfigurasi katalog Delta Lake baru. Konfigurasi ini perlu didefinisikan dalam serviceConfigsProfiles clusterProfile properti templat ARM.

    Properti Nilai Deskripsi
    fileName delta.properties Nama file katalog. Jika file disebut delta.properties, delta menjadi nama katalog.
    connector.name delta_lake Jenis katalog. Untuk Delta Lake, jenis katalog harus delta_lake
    hive.metastore hdi Jenis metastore apache hive yang akan digunakan untuk katalog ini. Ketik hdi, menginstruksikan kluster untuk menggunakan layanan Apache Hive Metastore dalam kluster, yang dikonfigurasi di atas.
    delta.register-table-procedure.enabled benar Diperlukan untuk mengizinkan tabel eksternal didaftarkan.

    Lihat Dokumentasi Trino untuk opsi konfigurasi delta lake lainnya.

    "serviceConfigsProfiles": [
    {
        "serviceName": "trino",
        "configs": [
            {
                "component": "catalogs",
                "files": [
                            {
                                "fileName": "delta.properties",
                                "values": {
                                    "connector.name": "delta_lake",
                                    "hive.metastore": "hdi",
                                    "delta.register-table-procedure.enabled": "true"
                                }
                            }
       ]
    
    ...
    
  3. Storage Blob Data Owner Tetapkan peran ke MSI yang ditetapkan pengguna kluster Anda di akun penyimpanan yang berisi tabel delta. Pelajari cara menetapkan peran.

    • Nama MSI yang ditetapkan pengguna tercantum dalam msiResourceId properti di sumber daya kluster JSON.

Sebarkan templat ARM yang diperbarui untuk mencerminkan perubahan di kluster Anda. Pelajari cara menyebarkan templat ARM.
Setelah berhasil disebarkan, Anda dapat melihat katalog "delta" di kluster Trino Anda.

Langkah berikutnya

Membaca tabel Delta Lakes (Synapse atau Lokasi Eksternal)