Bagikan melalui


Lingkungan komputasi yang didukung oleh alur Azure Data Factory dan Synapse

Azure Data Factory Azure Synapse Analytics

Tip

Data Factory di Microsoft Fabric adalah generasi Azure Data Factory berikutnya, dengan arsitektur yang lebih sederhana, AI bawaan, dan fitur baru. Jika Anda baru menggunakan integrasi data, mulailah dengan Fabric Data Factory. Beban kerja ADF yang ada dapat ditingkatkan ke Fabric untuk mengakses kemampuan baru di seluruh ilmu data, analitik real time, dan pelaporan.

Important

Dukungan untuk Azure Machine Learning Studio (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda beralih ke Azure Machine Learning pada tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak dapat membuat sumber daya Machine Learning Studio (klasik) baru (ruang kerja dan paket layanan web). Hingga 31 Agustus 2024, Anda dapat terus menggunakan eksperimen dan layanan web Machine Learning Studio (klasik) yang ada. Untuk informasi selengkapnya, lihat:

dokumentasi Machine Learning Studio (klasik) sedang dihentikan dan mungkin tidak diperbarui di masa mendatang.

Artikel ini menjelaskan berbagai lingkungan komputasi yang dapat Anda gunakan untuk memproses atau mengubah data. Ini juga menyediakan detail tentang konfigurasi yang berbeda (sesuai permintaan vs. bawa sendiri) yang didukung saat mengonfigurasi layanan tertaut yang menautkan lingkungan komputasi ini.

Tabel berikut ini menyediakan daftar lingkungan komputasi yang didukung dan aktivitas yang dapat berjalan di dalamnya.

Lingkungan komputasi Activities
Kluster HDInsight sesuai permintaan atau kluster HDInsight Anda sendiri Apache Hive, Pig, Spark, MapReduce, Hadoop Streaming
Azure Batch Custom
ML Studio (klasik) Aktivitas ML Studio (klasik): Eksekusi Batch dan Pembaruan Sumber Daya
Azure Machine Learning Azure Machine Learning Menjalankan Pipeline
Azure Data Lake Analytics Data Lake Analytics U-SQL
Azure SQL, Azure Synapse Analytics, SQL Server Prosedur Tersimpan
Azure Databricks Notebook, Jar, Python
Azure Synapse Analytics (Artefak) Aktivitas Synapse Notebook, definisi kerja Synapse Spark
Fungsi Azure Aktivitas Fungsi Azure

Lingkungan komputasi HDInsight

Lihat tabel di bawah ini untuk detail tentang jenis layanan tertaut storage yang didukung untuk konfigurasi di lingkungan Sesuai permintaan dan BYOC (Bawa komputasi Anda sendiri).

Di Layanan Tertaut Komputasi Nama Properti Description Blob ADLS Gen2 Azure SQL DB ADLS Gen 1
On-demand linkedServiceName Azure Storage layanan tertaut yang akan digunakan oleh kluster sesuai permintaan untuk menyimpan dan memproses data. Yes Yes No No
additionalLinkedServiceNames Menentukan akun storage tambahan untuk layanan tertaut HDInsight sehingga layanan dapat mendaftarkannya atas nama Anda. Yes No No No
hcatalogLinkedServiceName Nama layanan tertaut Azure SQL yang menunjuk ke database HCatalog. Kluster HDInsight sesuai permintaan dibuat dengan menggunakan database Azure SQL sebagai metastore. No No Yes No
BYOC linkedServiceName Referensi layanan tertaut Azure Storage. Yes Yes No No
additionalLinkedServiceNames Menentukan akun storage tambahan untuk layanan tertaut HDInsight sehingga layanan dapat mendaftarkannya atas nama Anda. No No No No
hcatalogLinkedServiceName Referensi ke layanan tertaut Azure SQL yang menunjuk ke database HCatalog. No No No No

Layanan tertaut pada permintaan Azure HDInsight

Dalam jenis konfigurasi ini, lingkungan komputasi dikelola sepenuhnya oleh layanan. Ini secara otomatis dibuat oleh layanan sebelum pekerjaan dikirimkan untuk memproses data dan dihapus ketika pekerjaan selesai. Anda dapat membuat layanan tertaut untuk lingkungan komputasi sesuai permintaan, mengonfigurasinya, dan mengontrol pengaturan terperinci untuk eksekusi pekerjaan, manajemen kluster, dan tindakan bootstrapping.

Note

Konfigurasi sesuai permintaan saat ini hanya didukung untuk kluster Azure HDInsight. Azure Databricks juga mendukung pekerjaan sesuai permintaan menggunakan kluster pekerjaan. Untuk informasi selengkapnya, lihat layanan tertaut Azure databricks.

Layanan ini dapat secara otomatis membuat kluster HDInsight sesuai permintaan untuk memproses data. Kluster dibuat di wilayah yang sama dengan akun storage (properti linkedServiceName di JSON) yang terkait dengan kluster. Akun penyimpanan must menjadi akun Azure Storage standar tujuan umum.

Perhatikan poin penting berikut tentang layanan tertaut HDInsight sesuai permintaan:

  • Kluster HDInsight sesuai permintaan dibuat di bawah langganan Azure Anda. Anda dapat melihat kluster di portal Azure Anda saat kluster aktif dan berjalan.
  • Log untuk pekerjaan yang dijalankan pada kluster HDInsight sesuai permintaan disalin ke akun storage yang terkait dengan kluster HDInsight. clusterUserName, clusterPassword, clusterSshUserName, clusterSshPassword yang ditentukan dalam definisi layanan tertaut Anda digunakan untuk masuk ke kluster untuk pemecahan masalah mendalam selama siklus hidup kluster.
  • Anda hanya dikenakan biaya untuk saat kluster HDInsight aktif dan menjalankan pekerjaan.
  • Anda dapat menggunakan Script Action dengan layanan tertaut Azure HDInsight sesuai permintaan.

Important

Biasanya diperlukan waktu 20 menit atau lebih untuk menyediakan kluster Azure HDInsight sesuai permintaan.

Contoh menggunakan Kunci Perwakilan Layanan

JSON berikut mendefinisikan layanan terhubung HDInsight berbasis Linux sesuai permintaan. Layanan ini secara otomatis membuat kluster HDInsight berbasis Linux untuk memproses aktivitas yang diperlukan.

{
  "name": "HDInsightOnDemandLinkedService",
  "properties": {
    "type": "HDInsightOnDemand",
    "typeProperties": {
      "clusterType": "hadoop",
      "clusterSize": 1,
      "timeToLive": "00:15:00",
      "hostSubscriptionId": "<subscription ID>",
      "servicePrincipalId": "<service principal ID>",
      "servicePrincipalKey": {
        "value": "<service principal key>",
        "type": "SecureString"
      },
      "tenant": "<tenant id>",
      "clusterResourceGroup": "<resource group name>",
      "clusterResourceGroupAuthType": "ServicePrincipalKey",
      "version": "3.6",
      "osType": "Linux",
      "linkedServiceName": {
        "referenceName": "AzureStorageLinkedService",
        "type": "LinkedServiceReference"
      }
    },
    "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
  }
}

Contoh menggunakan Identitas Terkelola yang Ditetapkan Sistem

JSON berikut mendefinisikan layanan terhubung HDInsight berbasis Linux sesuai permintaan. Layanan ini secara otomatis membuat kluster HDInsight berbasis Linux untuk memproses aktivitas yang diperlukan.

{
  "name": "HDInsightOnDemandLinkedService",
  "properties": {
    "type": "HDInsightOnDemand",
    "typeProperties": {
      "clusterType": "hadoop",
      "clusterSize": 1,
      "timeToLive": "00:15:00",
      "hostSubscriptionId": "<subscription ID>",
      "clusterResourceGroup": "<resource group name>",
      "clusterResourceGroupAuthType": "SystemAssignedManagedIdentity",
      "version": "3.6",
      "osType": "Linux",
      "linkedServiceName": {
        "referenceName": "AzureStorageLinkedService",
        "type": "LinkedServiceReference"
      }
    },
    "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
  }
}

Contoh menggunakan Identitas Terkelola yang Ditetapkan Pengguna

JSON berikut mendefinisikan layanan terhubung HDInsight berbasis Linux sesuai permintaan. Layanan ini secara otomatis membuat kluster HDInsight berbasis Linux untuk memproses aktivitas yang diperlukan.

{
  "name": "HDInsightOnDemandLinkedService",
  "properties": {
    "type": "HDInsightOnDemand",
    "typeProperties": {
      "clusterType": "hadoop",
      "clusterSize": 1,
      "timeToLive": "00:15:00",
      "hostSubscriptionId": "<subscription ID>",
      "clusterResourceGroup": "<resource group name>",
      "clusterResourceGroupAuthType": "UserAssignedManagedIdentity",
      "credential": {
            "referenceName": "CredentialName",
            "type": "CredentialReference"
       },
      "version": "3.6",
      "osType": "Linux",
      "linkedServiceName": {
        "referenceName": "AzureStorageLinkedService",
        "type": "LinkedServiceReference"
      }
    },
    "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
  }
}

Important

Kluster HDInsight membuat kontainer default di blob storage yang Anda tentukan di JSON (linkedServiceName). HDInsight tidak menghapus kontainer ini saat kluster dihapus. Perilaku ini dirancang. Dengan layanan HDInsight sesuai permintaan, kluster HDInsight dibuat setiap kali bagian data perlu diproses kecuali ada kluster yang aktif (timeToLive) dan akan dihapus setelah pemrosesan selesai.

Saat lebih banyak aktivitas berjalan, Anda akan melihat banyak kontainer di penyimpanan blob Azure Anda. Jika Anda tidak memerlukannya untuk memecahkan masalah pekerjaan, Anda mungkin ingin menghapusnya untuk mengurangi biaya storage. Nama-nama kontainer ini mengikuti pola: adf**yourfactoryorworkspacename**-**linkedservicename**-datetimestamp. Gunakan alat seperti Microsoft Azure Storage Explorer untuk menghapus kontainer di penyimpanan blob Azure Anda.

Properties

Property Description Required
jenis Properti jenis harus diatur ke HDInsightOnDemand. Yes
clusterSize Jumlah simpul pekerja/data dalam kluster. Kluster HDInsight dibuat dengan 2 node utama serta jumlah simpul pekerja yang Anda tentukan untuk properti ini. Simpul berukuran Standard_D3 yang memiliki 4 core, sehingga kluster dengan 4 simpul pekerja memerlukan total 24 core (4*4 = 16 core untuk simpul pekerja, ditambah 2*4 = 8 core untuk simpul kepala). Lihat Menyiapkan kluster di HDInsight dengan Hadoop, Spark, Kafka, dan lainnya untuk detailnya. Yes
linkedServiceName Azure Storage layanan tertaut yang akan digunakan oleh kluster sesuai permintaan untuk menyimpan dan memproses data. Kluster HDInsight dibuat di wilayah yang sama dengan akun Azure Storage ini. Azure HDInsight memiliki batasan jumlah total inti yang dapat Anda gunakan di setiap wilayah Azure yang didukungnya. Pastikan Anda memiliki cukup kuota inti di wilayah Azure tersebut untuk memenuhi clusterSize yang diperlukan. Untuk detailnya, lihat Menyiapkan kluster di HDInsight dengan Hadoop, Spark, Kafka, dan lainnya

Saat ini, Anda tidak dapat membuat kluster HDInsight sesuai permintaan yang menggunakan Azure Data Lake Storage (Gen 2) sebagai penyimpanan. Jika Anda ingin menyimpan data hasil dari pemrosesan HDInsight di Azure Data Lake Storage (Gen 2), gunakan Aktivitas Salin untuk menyalin data dari Azure Blob Storage ke Azure Data Lake Storage (Gen 2).

Yes
clusterResourceGroup Kluster HDInsight dibuat dalam grup sumber daya ini. Yes
clusterResourceGroupAuthType Tentukan tipe autentikasi grup sumber daya kluster On-demand HDInsight. Jenis autentikasi yang didukung adalah "ServicePrincipalKey", "SystemAssignedManagedIdentity", "UserAssignedManagedIdentity". Diperlukan untuk menggunakan autentikasi Identitas Terkelola. Jika bidang tidak ada, secara otomatis akan menggunakan ServicePrincipalKey sebagai default.
credential Tentukan referensi kredensial yang berisi objek Identitas Terkelola yang memiliki access melalui grup sumber daya. Hanya diperlukan untuk autentikasi "UserAssignedManagedIdentity".
timetolive Waktu menganggur yang diizinkan untuk kluster HDInsight on-demand. Menentukan berapa lama kluster HDInsight sesuai permintaan tetap hidup setelah selesainya aktivitas yang dijalankan jika tidak ada pekerjaan aktif lain di kluster. Nilai minimal yang diizinkan adalah 5 menit (00:05:00).

Misalnya, jika eksekusi aktivitas membutuhkan waktu 6 menit dan timetolive diatur ke 5 menit, kluster tetap hidup selama 5 menit setelah 6 menit pemrosesan aktivitas berjalan. Jika eksekusi aktivitas lain dijalankan dengan jendela 6 menit, aktivitas tersebut diproses oleh kluster yang sama.

Membuat kluster HDInsight sesuai permintaan adalah operasi yang mahal (bisa memakan waktu cukup lama), jadi gunakan pengaturan ini sesuai kebutuhan untuk meningkatkan performa layanan dengan menggunakan kembali kluster HDInsight sesuai permintaan.

Jika Anda mengatur nilai timetolive ke 0, kluster akan dihapus segera setelah aktivitas selesai. Namun, jika Anda menetapkan nilai tinggi, kluster dapat tetap menganggur sehingga Anda dapat masuk untuk tujuan pemecahan masalah tetapi dapat mengakibatkan biaya tinggi. Oleh karena itu, penting bagi Anda untuk menetapkan nilai yang sesuai berdasarkan kebutuhan Anda.

Jika nilai properti timetolive diatur dengan tepat, beberapa pipelines dapat berbagi instans kluster HDInsight sesuai permintaan.
Yes
clusterType Jenis kluster HDInsight yang akan dibuat. Nilai yang diizinkan adalah "hadoop" dan "spark". Jika tidak ditentukan, nilai defaultnya adalah hadoop. Kluster yang diaktifkan Paket Keamanan Perusahaan tidak dapat dibuat sesuai permintaan, sebagai gantinya menggunakan kluster yang sudah ada/ bawa komputasi Anda sendiri. No
versi Versi kluster HDInsight. Jika tidak ditentukan, ini menggunakan versi default yang ditentukan HDInsight saat ini. No
hostSubscriptionId ID langganan Azure digunakan untuk membuat kluster HDInsight. Jika tidak ditentukan, ini menggunakan ID Langganan konteks login Azure Anda. No
clusterNamePrefix Awalan nama kluster HDI, tanda waktu secara otomatis ditambahkan di akhir nama kluster No
sparkVersion Versi spark jika jenis kluster adalah "Spark" No
additionalLinkedServiceNames Menentukan akun storage tambahan untuk layanan tertaut HDInsight sehingga layanan dapat mendaftarkannya atas nama Anda. Akun storage ini harus berada di wilayah yang sama dengan kluster HDInsight, yang dibuat di wilayah yang sama dengan akun storage yang ditentukan oleh linkedServiceName. No
osType Jenis sistem operasi. Nilai yang diizinkan adalah: Linux dan Windows (hanya untuk HDInsight 3.3). Defaultnya adalah Linux. No
hcatalogLinkedServiceName Nama layanan tertaut Azure SQL yang menunjuk ke database HCatalog. Kluster HDInsight sesuai permintaan dibuat dengan menggunakan Azure SQL Database sebagai metastore. No
connectVia Integration Runtime yang akan digunakan untuk mendistribusikan aktivitas ke layanan terkait HDInsight ini. Untuk layanan tertaut HDInsight sesuai permintaan, layanan ini hanya mendukung Azure Integration Runtime. Jika tidak ditentukan, ia menggunakan Azure Integration Runtime default. No
clusterUserName Nama pengguna untuk mengakses kluster. No
clusterPassword Kata sandi dalam tipe string aman untuk mengakses kluster. No
clusterSshUserName Nama pengguna untuk menghubungkan SSH secara jarak jauh ke node kluster (untuk Linux). No
clusterSshPassword Kata sandi dalam bentuk string aman untuk menghubungkan node kluster dari jarak jauh melalui SSH (untuk Linux). No
scriptActions Tentukan skrip untuk kustomisasi kluster HDInsight selama pembuatan kluster sesuai permintaan.
Saat ini, alat penulisan UI hanya mendukung menentukan 1 tindakan skrip, tetapi Anda dapat melewati batasan ini di JSON (menentukan beberapa tindakan skrip di JSON).
No

Important

HDInsight mendukung beberapa versi kluster Hadoop yang dapat disebarkan. Setiap pilihan versi membuat versi tertentu dari distribusi Hortonworks Data Platform (HDP) dan sekumpulan komponen yang terkandung dalam distribusi tersebut. Daftar versi HDInsight yang didukung terus diperbarui untuk menyediakan komponen dan perbaikan ekosistem Hadoop terbaru. Pastikan Anda selalu merujuk ke informasi terbaru versi HDInsight yang didukung dan Jenis OS untuk memastikan Anda menggunakan versi HDInsight yang didukung.

Important

Saat ini, layanan tertaut HDInsight tidak mendukung HBase, Interactive Query (Hive LLAP), dan Storm.

  • Contoh JSON "additionalLinkedServiceNames"
"additionalLinkedServiceNames": [{
    "referenceName": "MyStorageLinkedService2",
    "type": "LinkedServiceReference"          
}]

Authentication

Autentikasi prinsip layanan

Layanan tertaut HDInsight Sesuai Permintaan memerlukan autentikasi perwakilan layanan untuk membuat kluster HDInsight atas nama Anda. Untuk menggunakan autentikasi perwakilan layanan, daftarkan entitas aplikasi pada Microsoft Entra ID dan berikan peran Contributor pada langganan atau grup sumber daya di mana kluster HDInsight dibuat. Untuk langkah-langkah terperinci, lihat Gunakan portal untuk membuat aplikasi Microsoft Entra dan perwakilan layanan yang dapat mengakses sumber daya. Catat nilai berikut, yang Anda gunakan untuk menentukan layanan tertaut:

  • ID aplikasi
  • Kunci Aplikasi
  • ID Penyewa

Gunakan autentikasi perwakilan layanan dengan menentukan properti berikut:

Property Description Required
servicePrincipalId Menentukan ID klien aplikasi. Yes
servicePrincipalKey Tentukan kunci aplikasi. Yes
tenant Tentukan informasi penyewa (nama domain atau ID penyewa) tempat aplikasi Anda berada. Anda dapat mengambilnya dengan mengarahkan mouse ke sudut kanan atas portal Azure. Yes

Autentikasi Identitas yang Dikelola

Saat menggunakan autentikasi Identitas Terkelola untuk Azure HDInsight layanan tertaut sesuai permintaan, pastikan bahwa objek Identitas Terkelola memiliki akses peran Kontributor ke grup sumber daya.

Akun storage utama ADLS Gen2 sekarang mendukung autentikasi berbasis User Assigned Managed Identity (UAMI) selain autentikasi berbasis kunci yang ada. UAMI harus memiliki izin sebagai Pemilik Blob Data Storage pada akun penyimpanan utama.

Limitations:

  • Akun storage utama ADLS Gen2 dan UAMI harus berada di grup sumber daya yang sama dengan grup sumber daya yang digunakan untuk membuat kluster HDInsight sesuai permintaan.
  • Nama objek kredensial untuk UAMI di Data Factory harus sama persis dengan nama UAMI.

Untuk informasi selengkapnya, lihat Buat Azure HDInsight - Azure Data Lake Storage Gen2 - portal dan Identitas terkelola di Azure HDInsight

Properti Tingkat Lanjut

Anda juga dapat menentukan properti berikut untuk konfigurasi terperinci dari kluster HDInsight sesuai permintaan.

Property Description Required
coreConfiguration Menentukan parameter konfigurasi inti (seperti dalam core-site.xml) agar kluster HDInsight dibuat. No
hBaseConfiguration Menentukan parameter konfigurasi HBase (hbase-site.xml) untuk kluster HDInsight. No
hdfsConfiguration Menentukan parameter konfigurasi HDFS (hdfs-site.xml) untuk kluster HDInsight. No
hiveConfiguration Menentukan parameter konfigurasi hive (hive-site.xml) untuk kluster HDInsight. No
mapReduceConfiguration Menentukan parameter konfigurasi MapReduce (mapred-site.xml) untuk kluster HDInsight. No
oozieConfiguration Menentukan parameter konfigurasi Oozie (oozie-site.xml) untuk kluster HDInsight. No
stormConfiguration Menentukan parameter konfigurasi Storm (storm-site.xml) untuk kluster HDInsight. No
yarnConfiguration Menentukan parameter konfigurasi Yarn (yarn-site.xml) untuk kluster HDInsight. No
  • Contoh - Konfigurasi kluster HDInsight sesuai permintaan dengan properti tingkat lanjut
{
    "name": " HDInsightOnDemandLinkedService",
    "properties": {
      "type": "HDInsightOnDemand",
      "typeProperties": {
          "clusterSize": 16,
          "timeToLive": "01:30:00",
          "hostSubscriptionId": "<subscription ID>",
          "servicePrincipalId": "<service principal ID>",
          "servicePrincipalKey": {
            "value": "<service principal key>",
            "type": "SecureString"
          },
          "tenant": "<tenant id>",
          "clusterResourceGroup": "<resource group name>",
          "version": "3.6",
          "osType": "Linux",
          "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
            },
            "coreConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "hiveConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "mapReduceConfiguration": {
                "mapreduce.reduce.java.opts": "-Xmx4000m",
                "mapreduce.map.java.opts": "-Xmx4000m",
                "mapreduce.map.memory.mb": "5000",
                "mapreduce.reduce.memory.mb": "5000",
                "mapreduce.job.reduce.slowstart.completedmaps": "0.8"
            },
            "yarnConfiguration": {
                "yarn.app.mapreduce.am.resource.mb": "5000",
                "mapreduce.map.memory.mb": "5000"
            },
            "additionalLinkedServiceNames": [{
                "referenceName": "MyStorageLinkedService2",
                "type": "LinkedServiceReference"          
            }]
        }
    },
      "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
}

Ukuran node

Anda dapat menentukan ukuran simpul utama, data, dan zookeeper menggunakan properti berikut:

Property Description Required
headNodeSize Menentukan ukuran simpul kepala. Nilai defaultnya adalah: Standard_D3. Lihat bagian Menentukan ukuran simpul untuk detailnya. No
dataNodeSize Menentukan ukuran simpul data. Nilai defaultnya adalah: Standard_D3. No
zookeeperNodeSize Menentukan ukuran simpul Zoo Keeper. Nilai defaultnya adalah: Standard_D3. No
  • Menentukan ukuran simpul Lihat artikel Ukuran Virtual Machines untuk nilai string yang perlu Anda tentukan untuk properti yang disebutkan di bagian sebelumnya. Nilai harus sesuai dengan CMDLETs &APIS yang dirujuk dalam artikel. Seperti yang Anda lihat dalam artikel, simpul data ukuran Besar (default) memiliki memori 7 GB, yang mungkin tidak cukup baik untuk skenario Anda.

Jika Anda ingin membuat simpul kepala dan simpul pekerja berukuran D4, tentukan Standard_D4 sebagai nilai untuk properti headNodeSize dan dataNodeSize.

"headNodeSize": "Standard_D4",    
"dataNodeSize": "Standard_D4",

Jika Anda menentukan nilai yang salah untuk properti ini, Anda mungkin menerima kesalahan berikut : Gagal membuat kluster. Pengecualian: Tidak dapat menyelesaikan operasi pembuatan kluster. Operasi gagal dengan kode '400'. Kluster tertinggal status: 'Kesalahan'. Notifikasi: 'PreClusterCreationValidationFailure'. Saat Anda menerima pesan kesalahan ini, pastikan Anda menggunakan CMDLET & APIS dari tabel di artikel Ukuran Mesin Virtual.

Membawa lingkungan komputasi Anda sendiri

Dalam jenis konfigurasi ini, pengguna dapat mendaftarkan lingkungan komputasi yang sudah ada sebagai layanan tertaut. Lingkungan komputasi dikelola oleh pengguna dan layanan menggunakannya untuk menjalankan aktivitas.

Jenis konfigurasi ini didukung untuk lingkungan komputasi berikut:

  • Azure HDInsight
  • Azure Batch
  • Azure Machine Learning
  • Azure Data Lake Analytics
  • Azure SQL DB, Azure Synapse Analytics, SQL Server

layanan terhubung Azure HDInsight

Anda dapat membuat layanan tertaut Azure HDInsight untuk mendaftarkan kluster HDInsight Anda sendiri dengan pabrik data atau ruang kerja Synapse.

Contoh menggunakan Autentikasi Dasar

{
    "name": "HDInsightLinkedService",
    "properties": {
      "type": "HDInsight",
      "typeProperties": {
        "clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
        "userName": "username",
        "password": {
            "value": "passwordvalue",
            "type": "SecureString"
          },
        "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Contoh menggunakan identitas terkelola yang ditetapkan Sistem

{
    "name": "HDInsightLinkedService",
    "properties": {
      "type": "HDInsight",
      "typeProperties": {
        "clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
        "clusterAuthType": "SystemAssignedManagedIdentity",
        "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Contoh menggunakan Identitas terkelola yang ditetapkan pengguna

{
    "name": "HDInsightLinkedService",
    "properties": {
      "type": "HDInsight",
      "typeProperties": {
        "clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
         "clusterAuthType": "UserAssignedManagedIdentity",
         "credential": {
                "referenceName": "CredentialName",
                "type": "CredentialReference"
            },
        "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Properties

Property Description Required
jenis Properti jenis harus diatur ke HDInsight. Yes
clusterUri URI dari kluster HDInsight. Yes
nama pengguna Tentukan nama pengguna yang akan digunakan untuk menyambungkan ke kluster HDInsight yang ada. Yes
kata sandi Tentukan kata sandi untuk akun pengguna. Yes
linkedServiceName Nama layanan tertaut Azure Storage yang mengacu pada penyimpanan blob Azure yang digunakan oleh kluster HDInsight.

Saat ini, Anda tidak dapat menentukan layanan tertaut Azure Data Lake Storage (Gen 2) untuk properti ini. Jika kluster HDInsight memiliki akses ke Data Lake Store, Anda dapat mengakses data di Azure Data Lake Storage (Gen 2) dari skrip Apache Hive/Pig.

Yes
isEspEnabled Tentukan 'true' jika kluster HDInsight diaktifkan Paket Keamanan Perusahaan . Defaultnya adalah 'false'. No
connectVia Integration Runtime yang akan digunakan untuk mengirimkan aktivitas ke layanan tertaut ini. Anda dapat menggunakan Azure Integration Runtime atau Integration Runtime yang dihost sendiri. Jika tidak ditentukan, ia menggunakan Azure Integration Runtime default.
Untuk kluster HDInsight yang diaktifkan dengan Paket Keamanan Perusahaan (ESP), gunakan runtime integrasi yang dihosting sendiri, yang memiliki akses langsung ke kluster atau harus ditempatkan di dalam Jaringan Virtual yang sama dengan kluster ESP HDInsight.
No
clusterAuthType Tentukan jenis autentikasi kluster HDInsight. Jenis autentikasi yang didukung adalah "BasicAuth", "SystemAssignedManagedIdentity", "UserAssignedManagedIdentity". Diperlukan untuk menggunakan autentikasi Identitas Terkelola. Jika bidang tidak ada, akan default ke BasicAuth
credential Tentukan referensi kredensial yang berisi informasi objek Identitas Terkelola untuk kluster HDInsight. Hanya diperlukan untuk autentikasi "UserAssignedManagedIdentity"

Authentication

Layanan tertaut Azure Storage untuk ADLS Gen2 sekarang mendukung identitas terkelola yang ditetapkan sistem dan ditetapkan pengguna selain metode autentikasi yang ada. Dukungan ini tersedia secara default saat menggunakan Azure Integration Runtime (Azure IR) dan didukung di Integration Runtime yang dihost sendiri (SHIR) mulai dari versi 5.55.9306.2 atau yang lebih baru. Untuk Azure Blob Storage, layanan tertaut Azure Storage terus hanya mendukung autentikasi kunci akun. Autentikasi identitas terkelola kluster juga sekarang tersedia secara default saat menggunakan IR Azure dan didukung pada SHIR yang dimulai dengan versi 5.58 atau yang lebih baru. Saat membuat kluster, hanya satu metode autentikasi yang dapat digunakan per kluster. Untuk detail tentang membuat dan mengelola kluster dengan identitas terkelola, lihat Buat dan kelola kluster Azure HDInsight dengan autentikasi Entra ID

Important

HDInsight mendukung beberapa versi kluster Hadoop yang dapat disebarkan. Setiap pilihan versi membuat versi tertentu dari distribusi Hortonworks Data Platform (HDP) dan sekumpulan komponen yang terkandung dalam distribusi tersebut. Daftar versi HDInsight yang didukung terus diperbarui untuk menyediakan komponen dan perbaikan ekosistem Hadoop terbaru. Pastikan Anda selalu merujuk ke informasi terbaru versi HDInsight yang didukung dan Jenis OS untuk memastikan Anda menggunakan versi HDInsight yang didukung.

Important

Saat ini, layanan tertaut HDInsight tidak mendukung HBase, Interactive Query (Hive LLAP), dan Storm.

layanan tertaut Azure Batch

Note

Kami menyarankan agar Anda menggunakan modul Az PowerShell Azure untuk berinteraksi dengan Azure. Untuk memulai, lihat Install Azure PowerShell. Untuk mempelajari cara bermigrasi ke modul Az PowerShell, lihat Migrasikan Azure PowerShell dari AzureRM ke Az.

Anda dapat membuat layanan tertaut Azure Batch untuk mendaftarkan kumpulan Batch komputer virtual (VM) ke data atau ruang kerja Synapse. Anda dapat menjalankan Aktivitas kustom menggunakan Azure Batch.

Lihat artikel berikut jika Anda baru dengan layanan Azure Batch:

Important

Saat membuat kumpulan Azure Batch baru, 'VirtualMachineConfiguration' harus digunakan dan BUKAN 'CloudServiceConfiguration'.

Example

{
    "name": "AzureBatchLinkedService",
    "properties": {
      "type": "AzureBatch",
      "typeProperties": {
        "accountName": "batchaccount",
        "accessKey": {
          "type": "SecureString",
          "value": "access key"
        },
        "batchUri": "https://batchaccount.region.batch.azure.com",
        "poolName": "poolname",
        "linkedServiceName": {
          "referenceName": "StorageLinkedService",
          "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Properties

Property Description Required
jenis Properti jenis harus ditentukan sebagai AzureBatch. Yes
accountName Nama akun Azure Batch. Yes
accessKey Kunci akses untuk akun Azure Batch. Yes
batchUri URL ke akun Azure Batch Anda, dalam format https://batchaccountname.region.batch.azure.com. Yes
poolName Nama kumpulan mesin virtual. Yes
linkedServiceName Nama layanan tertaut Azure Storage yang terkait dengan layanan Azure Batch ini. Layanan tertaut ini digunakan untuk menyiapkan file yang diperlukan untuk menjalankan aktivitas. Yes
connectVia Integration Runtime yang akan digunakan untuk mengirimkan aktivitas ke layanan tertaut ini. Anda dapat menggunakan Azure Integration Runtime atau Integration Runtime yang dihost sendiri. Jika tidak ditentukan, ia menggunakan Azure Integration Runtime default. No

layanan tertaut Machine Learning Studio (klasik)

Important

Dukungan untuk Azure Machine Learning Studio (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda beralih ke Azure Machine Learning pada tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak dapat membuat sumber daya Machine Learning Studio (klasik) baru (ruang kerja dan paket layanan web). Hingga 31 Agustus 2024, Anda dapat terus menggunakan eksperimen dan layanan web Machine Learning Studio (klasik) yang ada. Untuk informasi selengkapnya, lihat:

dokumentasi Machine Learning Studio (klasik) sedang dihentikan dan mungkin tidak diperbarui di masa mendatang.

Anda membuat layanan terkait Machine Learning Studio (klasik) untuk mendaftarkan titik akhir penilaian batch Machine Learning Studio (klasik) ke dalam pabrik data atau ruang kerja Synapse.

Example

{
    "name": "AzureMLLinkedService",
    "properties": {
      "type": "AzureML",
      "typeProperties": {
        "mlEndpoint": "https://[batch scoring endpoint]/jobs",
        "apiKey": {
            "type": "SecureString",
            "value": "access key"
        }
     },
     "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
}

Properties

Property Description Required
Type Properti jenis harus diatur ke: AzureML. Yes
mlEndpoint URL penilaian kelompok. Yes
apiKey API dari model ruang kerja yang diterbitkan Yes
updateResourceEndpoint URL Update Resource untuk endpoint Layanan Web ML Studio (klasik) yang digunakan untuk memperbarui Layanan Web prediktif dengan file model yang sudah dilatih. No
servicePrincipalId Menentukan ID klien aplikasi. Diperlukan jika updateResourceEndpoint ditentukan
servicePrincipalKey Tentukan kunci aplikasi. Diperlukan jika updateResourceEndpoint ditentukan
penyewa Tentukan informasi penyewa (nama domain atau ID penyewa) tempat aplikasi Anda berada. Anda dapat mengambilnya dengan mengarahkan mouse ke sudut kanan atas portal Azure. Diperlukan jika updateResourceEndpoint ditentukan
connectVia Integration Runtime yang akan digunakan untuk mengirimkan aktivitas ke layanan tertaut ini. Anda dapat menggunakan Azure Integration Runtime atau Integration Runtime yang dihost sendiri. Jika tidak ditentukan, ia menggunakan Azure Integration Runtime default. No

layanan terkait Azure Machine Learning

Anda membuat layanan tertaut Azure Machine Learning untuk menyambungkan ruang kerja Azure Machine Learning ke pabrik data atau ruang kerja Synapse.

Note

Saat ini hanya jenis autentikasi service principal yang didukung untuk layanan tertaut Azure Machine Learning.

Example

{
    "name": "AzureMLServiceLinkedService",
    "properties": {
        "type": "AzureMLService",
        "typeProperties": {
            "subscriptionId": "subscriptionId",
            "resourceGroupName": "resourceGroupName",
            "mlWorkspaceName": "mlWorkspaceName",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime?",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Properties

Property Description Required
Type Properti jenis harus diatur ke: AzureMLService. Yes
subscriptionId ID langganan Azure Yes
resourceGroupName name Yes
mlWorkspaceName nama ruang kerja Azure Machine Learning Yes
servicePrincipalId Menentukan ID klien aplikasi. Yes
servicePrincipalKey Tentukan kunci aplikasi. Yes
penyewa Tentukan informasi penyewa (nama domain atau ID penyewa) tempat aplikasi Anda berada. Anda dapat mengambilnya dengan mengarahkan mouse ke sudut kanan atas portal Azure. Diperlukan jika updateResourceEndpoint ditentukan
connectVia Integration Runtime yang akan digunakan untuk mengirimkan aktivitas ke layanan tertaut ini. Anda dapat menggunakan Azure Integration Runtime atau Integration Runtime yang dihost sendiri. Jika tidak ditentukan, ia menggunakan Azure Integration Runtime default. No

layanan tertaut Azure Data Lake Analytics

Anda membuat layanan tertaut Azure Data Lake Analytics untuk menautkan layanan komputasi Azure Data Lake Analytics ke pabrik data atau ruang kerja Synapse. Aktivitas Analitik Data Lake U-SQL dalam pipeline berkaitan dengan layanan tertaut ini.

Example

{
    "name": "AzureDataLakeAnalyticsLinkedService",
    "properties": {
        "type": "AzureDataLakeAnalytics",
        "typeProperties": {
            "accountName": "adftestaccount",
            "dataLakeAnalyticsUri": "azuredatalakeanalytics URI",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID",
            "subscriptionId": "<optional, subscription ID of ADLA>",
            "resourceGroupName": "<optional, resource group name of ADLA>"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Properties

Property Description Required
jenis Properti jenis harus diatur ke: AzureDataLakeAnalytics. Yes
accountName Nama Akun Azure Data Lake Analytics. Yes
dataLakeAnalyticsUri Azure Data Lake Analytics URI. No
subscriptionId ID langganan Azure No
resourceGroupName nama grup sumber daya Azure No
servicePrincipalId Menentukan ID klien aplikasi. Yes
servicePrincipalKey Tentukan kunci aplikasi. Yes
penyewa Tentukan informasi penyewa (nama domain atau ID penyewa) tempat aplikasi Anda berada. Anda dapat mengambilnya dengan mengarahkan mouse ke sudut kanan atas portal Azure. Yes
connectVia Integration Runtime yang akan digunakan untuk mengirimkan aktivitas ke layanan tertaut ini. Anda dapat menggunakan Azure Integration Runtime atau Integration Runtime yang dihost sendiri. Jika tidak ditentukan, ia menggunakan Azure Integration Runtime default. No

layanan terkait Azure Databricks

Anda dapat membuat Azure Databricks layanan tertaut untuk mendaftarkan ruang kerja Databricks yang Anda gunakan untuk menjalankan beban kerja Databricks(notebook, jar, python).

Important

Layanan tertaut Databricks mendukung kumpulan Instans & Autentikasi identitas terkelola yang ditetapkan sistem.

Contoh - Menggunakan kluster pekerjaan baru di Databricks

{
    "name": "AzureDatabricks_LS",
    "properties": {
        "type": "AzureDatabricks",
        "typeProperties": {
            "domain": "https://eastus.azuredatabricks.net",
            "newClusterNodeType": "Standard_D3_v2",
            "newClusterNumOfWorker": "1:10",
            "newClusterVersion": "4.0.x-scala2.11",
            "accessToken": {
                "type": "SecureString",
                "value": "YourAccessToken"
            }
        }
    }
}

Contoh - Menggunakan kluster Interaktif yang ada di Databricks

{
    "name": " AzureDataBricksLinkedService",
    "properties": {
      "type": " AzureDatabricks",
      "typeProperties": {
        "domain": "https://westeurope.azuredatabricks.net",
        "accessToken": {
            "type": "SecureString", 
            "value": "YourAccessToken"
          },
        "existingClusterId": "{clusterId}"
        }
}

Properties

Property Description Required
name Nama Layanan Tertaut Yes
jenis Properti jenis harus diatur ke: Azure Databricks. Yes
domain Tentukan Wilayah Azure yang sesuai berdasarkan wilayah ruang kerja Databricks. Contoh: https://eastus.azuredatabricks.net Yes
accessToken Token akses diperlukan agar layanan dapat mengautentikasi ke Azure Databricks. Token akses harus dihasilkan dari ruang kerja Databricks. Langkah-langkah lebih rinci untuk menemukan token access dapat ditemukan here No
MSI Gunakan identitas terkelola layanan (ditetapkan sistem) untuk mengautentikasi ke Azure Databricks. Anda tidak memerlukan Token Access saat menggunakan autentikasi 'MSI'. Detail selengkapnya tentang autentikasi Identitas Terkelola dapat ditemukan here No
existingClusterId ID klaster dari klaster yang ada untuk menjalankan semua tugas padanya. Ini harus merupakan Kluster Interaktif yang sudah ada. Anda mungkin perlu menghidupkan ulang kluster secara manual jika kluster berhenti merespons. Databricks menyarankan untuk menjalankan pekerjaan pada kluster baru untuk keandalan yang lebih besar. Anda dapat menemukan ID Kluster Interaktif di ruang kerja Databricks -> Kluster -> Nama Kluster Interaktif -> Konfigurasi -> Tag. Detail Selengkapnya No
instancePoolId ID Kumpulan Instans dari kumpulan yang ada di ruang kerja databricks. No
newClusterVersion Versi kluster dari Spark. Ini membuat kluster pekerjaan di databricks. No
newClusterNumOfWorker Jumlah node pekerja yang seharusnya dimiliki oleh klaster ini. Kluster memiliki satu Driver Spark dan Eksekutor num_workers dengan total num_workers + 1 simpul Spark. String yang diformat Int32, seperti "1" berarti jumlahPekerja adalah 1 atau "1:10" berarti skala otomatis dari 1 sebagai minimum dan 10 sebagai maksimum. No
newClusterNodeType Bidang ini mengkodekan, melalui satu nilai, sumber daya yang tersedia untuk masing-masing node Spark di kluster ini. Misalnya, node Spark dapat disediakan dan dioptimalkan untuk beban kerja yang intensif memori atau komputasi. Bidang ini diperlukan untuk kluster baru No
newClusterSparkConf satu set pasangan kunci-nilai konfigurasi Spark yang ditentukan oleh pengguna secara opsional. Pengguna juga dapat meneruskan serangkaian opsi JVM tambahan ke driver dan pelaksana melalui spark.driver.extraJavaOptions dan spark.executor.extraJavaOptions masing-masing. No
newClusterInitScripts satu set skrip inisialisasi opsional yang ditentukan pengguna untuk kluster baru. Anda dapat menentukan skrip init dalam file ruang kerja (disarankan) atau melalui jalur DBFS (warisan). No

layanan terhubung Azure SQL Database

Anda membuat layanan tertaut Azure SQL dan menggunakannya dengan Aktivitas Prosedur Tersimpan untuk memanggil prosedur tersimpan dari alur. Lihat artikel Azure SQL Connector untuk detail tentang layanan tertaut ini.

layanan tertaut Azure Synapse Analytics

Anda membuat layanan tertaut Azure Synapse Analytics dan menggunakannya dengan Stored Procedure Activity untuk memanggil prosedur tersimpan dari alur. Lihat artikel Azure Synapse Analytics Connector untuk detail tentang layanan tertaut ini.

layanan tertaut SQL Server

Anda membuat layanan tertaut SQL Server dan menggunakannya dengan Aktivitas Prosedur Tersimpan untuk memanggil prosedur tersimpan dari aliran data. Lihat artikel konektor SQL Server untuk detail tentang layanan tertaut ini.

layanan terkait Azure Synapse Analytics (Artefak)

Anda membuat layanan tertaut Azure Synapse Analytics (Artefak) dan menggunakannya dengan Aktifitas Notebook Synapse dan Aktifitas definisi kerja Synapse Spark.

Example

{
    "name": "AzureSynapseArtifacts",
    "type": "Microsoft.DataFactory/factories/linkedservice",
    "properties": {
      "properties": {
        "a":{
          "type": "String"
        }
      },
        "annotations": [],
        "type": "AzureSynapseArtifacts",
        "typeProperties": {
            "endpoint": "@{linkedService().a}",
            "authentication": "MSI",
            "workspaceResourceId": ""
        },
        "ConnectVia":{
          "referenceName": "integrationRuntime1",
          "type": "IntegrationRuntimeReference"
        }
    }
}

Properties

Property Description Required
name Nama Layanan Tertaut Yes
description deskripsi Layanan Tertaut No
annotations anotasi Layanan Tertaut No
jenis Properti jenis harus diatur ke AzureSynapseArtifacts Yes
titik akhir URL Azure Synapse Analytics Yes
autentikasi Pengaturan defaultnya adalah Identitas Terkelola yang Ditetapkan Sistem Yes
workspaceResourceId ID Sumber Daya ruang kerja Yes
connectVia Integration Runtime yang akan digunakan untuk menyambungkan ke penyimpanan data. Anda dapat menggunakan Azure Integration Runtime. Jika tidak ditentukan, ia menggunakan Azure Integration Runtime default. Integration runtime yang dihost sendiri saat ini tidak didukung. Yes

layanan tertaut fungsi Azure

Anda membuat layanan tertaut Azure Function dan menggunakannya dengan aktivitas Azure Function untuk menjalankan Azure Functions dalam alur. Jenis pengembalian fungsi Azure harus berupa JObject yang valid. (Perlu diingat bahwa JArraybukan sebuah JObject.) Jenis pengembalian apa pun selain JObject gagal dan memunculkan kesalahan pengguna Response Content is not a valid JObject.

Property Description Required
jenis Properti tipe harus diatur ke: AzureFunction yes
URL dari aplikasi fungsi URL untuk Aplikasi Fungsi Azure. Format adalah https://<accountname>.azurewebsites.net. URL ini adalah nilai di bawah bagian URL saat melihat Aplikasi Fungsi Anda di portal Azure yes
kunci fungsi Kunci akses untuk Fungsi Azure. Klik bagian Kelola untuk fungsi masing-masing, dan salin Kunci Fungsi atau kunci Host. Cari tahu selengkapnya di sini: Bekerja dengan kunci akses yes

Untuk daftar aktivitas transformasi yang didukung, lihat Mengubah data.