Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Tip
Data Factory di Microsoft Fabric adalah generasi Azure Data Factory berikutnya, dengan arsitektur yang lebih sederhana, AI bawaan, dan fitur baru. Jika Anda baru menggunakan integrasi data, mulailah dengan Fabric Data Factory. Beban kerja ADF yang ada dapat ditingkatkan ke Fabric untuk mengakses kemampuan baru di seluruh ilmu data, analitik real time, dan pelaporan.
Important
Dukungan untuk Azure Machine Learning Studio (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda beralih ke Azure Machine Learning pada tanggal tersebut.
Mulai 1 Desember 2021, Anda tidak dapat membuat sumber daya Machine Learning Studio (klasik) baru (ruang kerja dan paket layanan web). Hingga 31 Agustus 2024, Anda dapat terus menggunakan eksperimen dan layanan web Machine Learning Studio (klasik) yang ada. Untuk informasi selengkapnya, lihat:
- Migrasi ke Azure Machine Learning dari Machine Learning Studio (klasik)
- Apa itu Azure Machine Learning?
dokumentasi Machine Learning Studio (klasik) sedang dihentikan dan mungkin tidak diperbarui di masa mendatang.
Artikel ini menjelaskan berbagai lingkungan komputasi yang dapat Anda gunakan untuk memproses atau mengubah data. Ini juga menyediakan detail tentang konfigurasi yang berbeda (sesuai permintaan vs. bawa sendiri) yang didukung saat mengonfigurasi layanan tertaut yang menautkan lingkungan komputasi ini.
Tabel berikut ini menyediakan daftar lingkungan komputasi yang didukung dan aktivitas yang dapat berjalan di dalamnya.
Lingkungan komputasi HDInsight
Lihat tabel di bawah ini untuk detail tentang jenis layanan tertaut storage yang didukung untuk konfigurasi di lingkungan Sesuai permintaan dan BYOC (Bawa komputasi Anda sendiri).
| Di Layanan Tertaut Komputasi | Nama Properti | Description | Blob | ADLS Gen2 | Azure SQL DB | ADLS Gen 1 |
|---|---|---|---|---|---|---|
| On-demand | linkedServiceName | Azure Storage layanan tertaut yang akan digunakan oleh kluster sesuai permintaan untuk menyimpan dan memproses data. | Yes | Yes | No | No |
| additionalLinkedServiceNames | Menentukan akun storage tambahan untuk layanan tertaut HDInsight sehingga layanan dapat mendaftarkannya atas nama Anda. | Yes | No | No | No | |
| hcatalogLinkedServiceName | Nama layanan tertaut Azure SQL yang menunjuk ke database HCatalog. Kluster HDInsight sesuai permintaan dibuat dengan menggunakan database Azure SQL sebagai metastore. | No | No | Yes | No | |
| BYOC | linkedServiceName | Referensi layanan tertaut Azure Storage. | Yes | Yes | No | No |
| additionalLinkedServiceNames | Menentukan akun storage tambahan untuk layanan tertaut HDInsight sehingga layanan dapat mendaftarkannya atas nama Anda. | No | No | No | No | |
| hcatalogLinkedServiceName | Referensi ke layanan tertaut Azure SQL yang menunjuk ke database HCatalog. | No | No | No | No |
Layanan tertaut pada permintaan Azure HDInsight
Dalam jenis konfigurasi ini, lingkungan komputasi dikelola sepenuhnya oleh layanan. Ini secara otomatis dibuat oleh layanan sebelum pekerjaan dikirimkan untuk memproses data dan dihapus ketika pekerjaan selesai. Anda dapat membuat layanan tertaut untuk lingkungan komputasi sesuai permintaan, mengonfigurasinya, dan mengontrol pengaturan terperinci untuk eksekusi pekerjaan, manajemen kluster, dan tindakan bootstrapping.
Note
Konfigurasi sesuai permintaan saat ini hanya didukung untuk kluster Azure HDInsight. Azure Databricks juga mendukung pekerjaan sesuai permintaan menggunakan kluster pekerjaan. Untuk informasi selengkapnya, lihat layanan tertaut Azure databricks.
Layanan ini dapat secara otomatis membuat kluster HDInsight sesuai permintaan untuk memproses data. Kluster dibuat di wilayah yang sama dengan akun storage (properti linkedServiceName di JSON) yang terkait dengan kluster. Akun penyimpanan must menjadi akun Azure Storage standar tujuan umum.
Perhatikan poin penting berikut tentang layanan tertaut HDInsight sesuai permintaan:
- Kluster HDInsight sesuai permintaan dibuat di bawah langganan Azure Anda. Anda dapat melihat kluster di portal Azure Anda saat kluster aktif dan berjalan.
- Log untuk pekerjaan yang dijalankan pada kluster HDInsight sesuai permintaan disalin ke akun storage yang terkait dengan kluster HDInsight. clusterUserName, clusterPassword, clusterSshUserName, clusterSshPassword yang ditentukan dalam definisi layanan tertaut Anda digunakan untuk masuk ke kluster untuk pemecahan masalah mendalam selama siklus hidup kluster.
- Anda hanya dikenakan biaya untuk saat kluster HDInsight aktif dan menjalankan pekerjaan.
- Anda dapat menggunakan Script Action dengan layanan tertaut Azure HDInsight sesuai permintaan.
Important
Biasanya diperlukan waktu 20 menit atau lebih untuk menyediakan kluster Azure HDInsight sesuai permintaan.
Contoh menggunakan Kunci Perwakilan Layanan
JSON berikut mendefinisikan layanan terhubung HDInsight berbasis Linux sesuai permintaan. Layanan ini secara otomatis membuat kluster HDInsight berbasis Linux untuk memproses aktivitas yang diperlukan.
{
"name": "HDInsightOnDemandLinkedService",
"properties": {
"type": "HDInsightOnDemand",
"typeProperties": {
"clusterType": "hadoop",
"clusterSize": 1,
"timeToLive": "00:15:00",
"hostSubscriptionId": "<subscription ID>",
"servicePrincipalId": "<service principal ID>",
"servicePrincipalKey": {
"value": "<service principal key>",
"type": "SecureString"
},
"tenant": "<tenant id>",
"clusterResourceGroup": "<resource group name>",
"clusterResourceGroupAuthType": "ServicePrincipalKey",
"version": "3.6",
"osType": "Linux",
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Contoh menggunakan Identitas Terkelola yang Ditetapkan Sistem
JSON berikut mendefinisikan layanan terhubung HDInsight berbasis Linux sesuai permintaan. Layanan ini secara otomatis membuat kluster HDInsight berbasis Linux untuk memproses aktivitas yang diperlukan.
{
"name": "HDInsightOnDemandLinkedService",
"properties": {
"type": "HDInsightOnDemand",
"typeProperties": {
"clusterType": "hadoop",
"clusterSize": 1,
"timeToLive": "00:15:00",
"hostSubscriptionId": "<subscription ID>",
"clusterResourceGroup": "<resource group name>",
"clusterResourceGroupAuthType": "SystemAssignedManagedIdentity",
"version": "3.6",
"osType": "Linux",
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Contoh menggunakan Identitas Terkelola yang Ditetapkan Pengguna
JSON berikut mendefinisikan layanan terhubung HDInsight berbasis Linux sesuai permintaan. Layanan ini secara otomatis membuat kluster HDInsight berbasis Linux untuk memproses aktivitas yang diperlukan.
{
"name": "HDInsightOnDemandLinkedService",
"properties": {
"type": "HDInsightOnDemand",
"typeProperties": {
"clusterType": "hadoop",
"clusterSize": 1,
"timeToLive": "00:15:00",
"hostSubscriptionId": "<subscription ID>",
"clusterResourceGroup": "<resource group name>",
"clusterResourceGroupAuthType": "UserAssignedManagedIdentity",
"credential": {
"referenceName": "CredentialName",
"type": "CredentialReference"
},
"version": "3.6",
"osType": "Linux",
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Important
Kluster HDInsight membuat kontainer default di blob storage yang Anda tentukan di JSON (linkedServiceName). HDInsight tidak menghapus kontainer ini saat kluster dihapus. Perilaku ini dirancang. Dengan layanan HDInsight sesuai permintaan, kluster HDInsight dibuat setiap kali bagian data perlu diproses kecuali ada kluster yang aktif (timeToLive) dan akan dihapus setelah pemrosesan selesai.
Saat lebih banyak aktivitas berjalan, Anda akan melihat banyak kontainer di penyimpanan blob Azure Anda. Jika Anda tidak memerlukannya untuk memecahkan masalah pekerjaan, Anda mungkin ingin menghapusnya untuk mengurangi biaya storage. Nama-nama kontainer ini mengikuti pola: adf**yourfactoryorworkspacename**-**linkedservicename**-datetimestamp. Gunakan alat seperti Microsoft Azure Storage Explorer untuk menghapus kontainer di penyimpanan blob Azure Anda.
Properties
| Property | Description | Required |
|---|---|---|
| jenis | Properti jenis harus diatur ke HDInsightOnDemand. | Yes |
| clusterSize | Jumlah simpul pekerja/data dalam kluster. Kluster HDInsight dibuat dengan 2 node utama serta jumlah simpul pekerja yang Anda tentukan untuk properti ini. Simpul berukuran Standard_D3 yang memiliki 4 core, sehingga kluster dengan 4 simpul pekerja memerlukan total 24 core (4*4 = 16 core untuk simpul pekerja, ditambah 2*4 = 8 core untuk simpul kepala). Lihat Menyiapkan kluster di HDInsight dengan Hadoop, Spark, Kafka, dan lainnya untuk detailnya. | Yes |
| linkedServiceName | Azure Storage layanan tertaut yang akan digunakan oleh kluster sesuai permintaan untuk menyimpan dan memproses data. Kluster HDInsight dibuat di wilayah yang sama dengan akun Azure Storage ini. Azure HDInsight memiliki batasan jumlah total inti yang dapat Anda gunakan di setiap wilayah Azure yang didukungnya. Pastikan Anda memiliki cukup kuota inti di wilayah Azure tersebut untuk memenuhi clusterSize yang diperlukan. Untuk detailnya, lihat Menyiapkan kluster di HDInsight dengan Hadoop, Spark, Kafka, dan lainnya Saat ini, Anda tidak dapat membuat kluster HDInsight sesuai permintaan yang menggunakan Azure Data Lake Storage (Gen 2) sebagai penyimpanan. Jika Anda ingin menyimpan data hasil dari pemrosesan HDInsight di Azure Data Lake Storage (Gen 2), gunakan Aktivitas Salin untuk menyalin data dari Azure Blob Storage ke Azure Data Lake Storage (Gen 2). |
Yes |
| clusterResourceGroup | Kluster HDInsight dibuat dalam grup sumber daya ini. | Yes |
| clusterResourceGroupAuthType | Tentukan tipe autentikasi grup sumber daya kluster On-demand HDInsight. Jenis autentikasi yang didukung adalah "ServicePrincipalKey", "SystemAssignedManagedIdentity", "UserAssignedManagedIdentity". | Diperlukan untuk menggunakan autentikasi Identitas Terkelola. Jika bidang tidak ada, secara otomatis akan menggunakan ServicePrincipalKey sebagai default. |
| credential | Tentukan referensi kredensial yang berisi objek Identitas Terkelola yang memiliki access melalui grup sumber daya. | Hanya diperlukan untuk autentikasi "UserAssignedManagedIdentity". |
| timetolive | Waktu menganggur yang diizinkan untuk kluster HDInsight on-demand. Menentukan berapa lama kluster HDInsight sesuai permintaan tetap hidup setelah selesainya aktivitas yang dijalankan jika tidak ada pekerjaan aktif lain di kluster. Nilai minimal yang diizinkan adalah 5 menit (00:05:00). Misalnya, jika eksekusi aktivitas membutuhkan waktu 6 menit dan timetolive diatur ke 5 menit, kluster tetap hidup selama 5 menit setelah 6 menit pemrosesan aktivitas berjalan. Jika eksekusi aktivitas lain dijalankan dengan jendela 6 menit, aktivitas tersebut diproses oleh kluster yang sama. Membuat kluster HDInsight sesuai permintaan adalah operasi yang mahal (bisa memakan waktu cukup lama), jadi gunakan pengaturan ini sesuai kebutuhan untuk meningkatkan performa layanan dengan menggunakan kembali kluster HDInsight sesuai permintaan. Jika Anda mengatur nilai timetolive ke 0, kluster akan dihapus segera setelah aktivitas selesai. Namun, jika Anda menetapkan nilai tinggi, kluster dapat tetap menganggur sehingga Anda dapat masuk untuk tujuan pemecahan masalah tetapi dapat mengakibatkan biaya tinggi. Oleh karena itu, penting bagi Anda untuk menetapkan nilai yang sesuai berdasarkan kebutuhan Anda. Jika nilai properti timetolive diatur dengan tepat, beberapa pipelines dapat berbagi instans kluster HDInsight sesuai permintaan. |
Yes |
| clusterType | Jenis kluster HDInsight yang akan dibuat. Nilai yang diizinkan adalah "hadoop" dan "spark". Jika tidak ditentukan, nilai defaultnya adalah hadoop. Kluster yang diaktifkan Paket Keamanan Perusahaan tidak dapat dibuat sesuai permintaan, sebagai gantinya menggunakan kluster yang sudah ada/ bawa komputasi Anda sendiri. | No |
| versi | Versi kluster HDInsight. Jika tidak ditentukan, ini menggunakan versi default yang ditentukan HDInsight saat ini. | No |
| hostSubscriptionId | ID langganan Azure digunakan untuk membuat kluster HDInsight. Jika tidak ditentukan, ini menggunakan ID Langganan konteks login Azure Anda. | No |
| clusterNamePrefix | Awalan nama kluster HDI, tanda waktu secara otomatis ditambahkan di akhir nama kluster | No |
| sparkVersion | Versi spark jika jenis kluster adalah "Spark" | No |
| additionalLinkedServiceNames | Menentukan akun storage tambahan untuk layanan tertaut HDInsight sehingga layanan dapat mendaftarkannya atas nama Anda. Akun storage ini harus berada di wilayah yang sama dengan kluster HDInsight, yang dibuat di wilayah yang sama dengan akun storage yang ditentukan oleh linkedServiceName. | No |
| osType | Jenis sistem operasi. Nilai yang diizinkan adalah: Linux dan Windows (hanya untuk HDInsight 3.3). Defaultnya adalah Linux. | No |
| hcatalogLinkedServiceName | Nama layanan tertaut Azure SQL yang menunjuk ke database HCatalog. Kluster HDInsight sesuai permintaan dibuat dengan menggunakan Azure SQL Database sebagai metastore. | No |
| connectVia | Integration Runtime yang akan digunakan untuk mendistribusikan aktivitas ke layanan terkait HDInsight ini. Untuk layanan tertaut HDInsight sesuai permintaan, layanan ini hanya mendukung Azure Integration Runtime. Jika tidak ditentukan, ia menggunakan Azure Integration Runtime default. | No |
| clusterUserName | Nama pengguna untuk mengakses kluster. | No |
| clusterPassword | Kata sandi dalam tipe string aman untuk mengakses kluster. | No |
| clusterSshUserName | Nama pengguna untuk menghubungkan SSH secara jarak jauh ke node kluster (untuk Linux). | No |
| clusterSshPassword | Kata sandi dalam bentuk string aman untuk menghubungkan node kluster dari jarak jauh melalui SSH (untuk Linux). | No |
| scriptActions | Tentukan skrip untuk kustomisasi kluster HDInsight selama pembuatan kluster sesuai permintaan. Saat ini, alat penulisan UI hanya mendukung menentukan 1 tindakan skrip, tetapi Anda dapat melewati batasan ini di JSON (menentukan beberapa tindakan skrip di JSON). |
No |
Important
HDInsight mendukung beberapa versi kluster Hadoop yang dapat disebarkan. Setiap pilihan versi membuat versi tertentu dari distribusi Hortonworks Data Platform (HDP) dan sekumpulan komponen yang terkandung dalam distribusi tersebut. Daftar versi HDInsight yang didukung terus diperbarui untuk menyediakan komponen dan perbaikan ekosistem Hadoop terbaru. Pastikan Anda selalu merujuk ke informasi terbaru versi HDInsight yang didukung dan Jenis OS untuk memastikan Anda menggunakan versi HDInsight yang didukung.
Important
Saat ini, layanan tertaut HDInsight tidak mendukung HBase, Interactive Query (Hive LLAP), dan Storm.
- Contoh JSON "additionalLinkedServiceNames"
"additionalLinkedServiceNames": [{
"referenceName": "MyStorageLinkedService2",
"type": "LinkedServiceReference"
}]
Authentication
Autentikasi prinsip layanan
Layanan tertaut HDInsight Sesuai Permintaan memerlukan autentikasi perwakilan layanan untuk membuat kluster HDInsight atas nama Anda. Untuk menggunakan autentikasi perwakilan layanan, daftarkan entitas aplikasi pada Microsoft Entra ID dan berikan peran Contributor pada langganan atau grup sumber daya di mana kluster HDInsight dibuat. Untuk langkah-langkah terperinci, lihat Gunakan portal untuk membuat aplikasi Microsoft Entra dan perwakilan layanan yang dapat mengakses sumber daya. Catat nilai berikut, yang Anda gunakan untuk menentukan layanan tertaut:
- ID aplikasi
- Kunci Aplikasi
- ID Penyewa
Gunakan autentikasi perwakilan layanan dengan menentukan properti berikut:
| Property | Description | Required |
|---|---|---|
| servicePrincipalId | Menentukan ID klien aplikasi. | Yes |
| servicePrincipalKey | Tentukan kunci aplikasi. | Yes |
| tenant | Tentukan informasi penyewa (nama domain atau ID penyewa) tempat aplikasi Anda berada. Anda dapat mengambilnya dengan mengarahkan mouse ke sudut kanan atas portal Azure. | Yes |
Autentikasi Identitas yang Dikelola
Saat menggunakan autentikasi Identitas Terkelola untuk Azure HDInsight layanan tertaut sesuai permintaan, pastikan bahwa objek Identitas Terkelola memiliki akses peran Kontributor ke grup sumber daya.
Akun storage utama ADLS Gen2 sekarang mendukung autentikasi berbasis User Assigned Managed Identity (UAMI) selain autentikasi berbasis kunci yang ada. UAMI harus memiliki izin sebagai Pemilik Blob Data Storage pada akun penyimpanan utama.
Limitations:
- Akun storage utama ADLS Gen2 dan UAMI harus berada di grup sumber daya yang sama dengan grup sumber daya yang digunakan untuk membuat kluster HDInsight sesuai permintaan.
- Nama objek kredensial untuk UAMI di Data Factory harus sama persis dengan nama UAMI.
Untuk informasi selengkapnya, lihat Buat Azure HDInsight - Azure Data Lake Storage Gen2 - portal dan Identitas terkelola di Azure HDInsight
Properti Tingkat Lanjut
Anda juga dapat menentukan properti berikut untuk konfigurasi terperinci dari kluster HDInsight sesuai permintaan.
| Property | Description | Required |
|---|---|---|
| coreConfiguration | Menentukan parameter konfigurasi inti (seperti dalam core-site.xml) agar kluster HDInsight dibuat. | No |
| hBaseConfiguration | Menentukan parameter konfigurasi HBase (hbase-site.xml) untuk kluster HDInsight. | No |
| hdfsConfiguration | Menentukan parameter konfigurasi HDFS (hdfs-site.xml) untuk kluster HDInsight. | No |
| hiveConfiguration | Menentukan parameter konfigurasi hive (hive-site.xml) untuk kluster HDInsight. | No |
| mapReduceConfiguration | Menentukan parameter konfigurasi MapReduce (mapred-site.xml) untuk kluster HDInsight. | No |
| oozieConfiguration | Menentukan parameter konfigurasi Oozie (oozie-site.xml) untuk kluster HDInsight. | No |
| stormConfiguration | Menentukan parameter konfigurasi Storm (storm-site.xml) untuk kluster HDInsight. | No |
| yarnConfiguration | Menentukan parameter konfigurasi Yarn (yarn-site.xml) untuk kluster HDInsight. | No |
- Contoh - Konfigurasi kluster HDInsight sesuai permintaan dengan properti tingkat lanjut
{
"name": " HDInsightOnDemandLinkedService",
"properties": {
"type": "HDInsightOnDemand",
"typeProperties": {
"clusterSize": 16,
"timeToLive": "01:30:00",
"hostSubscriptionId": "<subscription ID>",
"servicePrincipalId": "<service principal ID>",
"servicePrincipalKey": {
"value": "<service principal key>",
"type": "SecureString"
},
"tenant": "<tenant id>",
"clusterResourceGroup": "<resource group name>",
"version": "3.6",
"osType": "Linux",
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
},
"coreConfiguration": {
"templeton.mapper.memory.mb": "5000"
},
"hiveConfiguration": {
"templeton.mapper.memory.mb": "5000"
},
"mapReduceConfiguration": {
"mapreduce.reduce.java.opts": "-Xmx4000m",
"mapreduce.map.java.opts": "-Xmx4000m",
"mapreduce.map.memory.mb": "5000",
"mapreduce.reduce.memory.mb": "5000",
"mapreduce.job.reduce.slowstart.completedmaps": "0.8"
},
"yarnConfiguration": {
"yarn.app.mapreduce.am.resource.mb": "5000",
"mapreduce.map.memory.mb": "5000"
},
"additionalLinkedServiceNames": [{
"referenceName": "MyStorageLinkedService2",
"type": "LinkedServiceReference"
}]
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
Ukuran node
Anda dapat menentukan ukuran simpul utama, data, dan zookeeper menggunakan properti berikut:
| Property | Description | Required |
|---|---|---|
| headNodeSize | Menentukan ukuran simpul kepala. Nilai defaultnya adalah: Standard_D3. Lihat bagian Menentukan ukuran simpul untuk detailnya. | No |
| dataNodeSize | Menentukan ukuran simpul data. Nilai defaultnya adalah: Standard_D3. | No |
| zookeeperNodeSize | Menentukan ukuran simpul Zoo Keeper. Nilai defaultnya adalah: Standard_D3. | No |
- Menentukan ukuran simpul Lihat artikel Ukuran Virtual Machines untuk nilai string yang perlu Anda tentukan untuk properti yang disebutkan di bagian sebelumnya. Nilai harus sesuai dengan CMDLETs &APIS yang dirujuk dalam artikel. Seperti yang Anda lihat dalam artikel, simpul data ukuran Besar (default) memiliki memori 7 GB, yang mungkin tidak cukup baik untuk skenario Anda.
Jika Anda ingin membuat simpul kepala dan simpul pekerja berukuran D4, tentukan Standard_D4 sebagai nilai untuk properti headNodeSize dan dataNodeSize.
"headNodeSize": "Standard_D4",
"dataNodeSize": "Standard_D4",
Jika Anda menentukan nilai yang salah untuk properti ini, Anda mungkin menerima kesalahan berikut : Gagal membuat kluster. Pengecualian: Tidak dapat menyelesaikan operasi pembuatan kluster. Operasi gagal dengan kode '400'. Kluster tertinggal status: 'Kesalahan'. Notifikasi: 'PreClusterCreationValidationFailure'. Saat Anda menerima pesan kesalahan ini, pastikan Anda menggunakan
Membawa lingkungan komputasi Anda sendiri
Dalam jenis konfigurasi ini, pengguna dapat mendaftarkan lingkungan komputasi yang sudah ada sebagai layanan tertaut. Lingkungan komputasi dikelola oleh pengguna dan layanan menggunakannya untuk menjalankan aktivitas.
Jenis konfigurasi ini didukung untuk lingkungan komputasi berikut:
- Azure HDInsight
- Azure Batch
- Azure Machine Learning
- Azure Data Lake Analytics
- Azure SQL DB, Azure Synapse Analytics, SQL Server
layanan terhubung Azure HDInsight
Anda dapat membuat layanan tertaut Azure HDInsight untuk mendaftarkan kluster HDInsight Anda sendiri dengan pabrik data atau ruang kerja Synapse.
Contoh menggunakan Autentikasi Dasar
{
"name": "HDInsightLinkedService",
"properties": {
"type": "HDInsight",
"typeProperties": {
"clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
"userName": "username",
"password": {
"value": "passwordvalue",
"type": "SecureString"
},
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Contoh menggunakan identitas terkelola yang ditetapkan Sistem
{
"name": "HDInsightLinkedService",
"properties": {
"type": "HDInsight",
"typeProperties": {
"clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
"clusterAuthType": "SystemAssignedManagedIdentity",
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Contoh menggunakan Identitas terkelola yang ditetapkan pengguna
{
"name": "HDInsightLinkedService",
"properties": {
"type": "HDInsight",
"typeProperties": {
"clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
"clusterAuthType": "UserAssignedManagedIdentity",
"credential": {
"referenceName": "CredentialName",
"type": "CredentialReference"
},
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Properties
| Property | Description | Required |
|---|---|---|
| jenis | Properti jenis harus diatur ke HDInsight. | Yes |
| clusterUri | URI dari kluster HDInsight. | Yes |
| nama pengguna | Tentukan nama pengguna yang akan digunakan untuk menyambungkan ke kluster HDInsight yang ada. | Yes |
| kata sandi | Tentukan kata sandi untuk akun pengguna. | Yes |
| linkedServiceName | Nama layanan tertaut Azure Storage yang mengacu pada penyimpanan blob Azure yang digunakan oleh kluster HDInsight. Saat ini, Anda tidak dapat menentukan layanan tertaut Azure Data Lake Storage (Gen 2) untuk properti ini. Jika kluster HDInsight memiliki akses ke Data Lake Store, Anda dapat mengakses data di Azure Data Lake Storage (Gen 2) dari skrip Apache Hive/Pig. |
Yes |
| isEspEnabled | Tentukan 'true' jika kluster HDInsight diaktifkan Paket Keamanan Perusahaan . Defaultnya adalah 'false'. | No |
| connectVia | Integration Runtime yang akan digunakan untuk mengirimkan aktivitas ke layanan tertaut ini. Anda dapat menggunakan Azure Integration Runtime atau Integration Runtime yang dihost sendiri. Jika tidak ditentukan, ia menggunakan Azure Integration Runtime default. Untuk kluster HDInsight yang diaktifkan dengan Paket Keamanan Perusahaan (ESP), gunakan runtime integrasi yang dihosting sendiri, yang memiliki akses langsung ke kluster atau harus ditempatkan di dalam Jaringan Virtual yang sama dengan kluster ESP HDInsight. |
No |
| clusterAuthType | Tentukan jenis autentikasi kluster HDInsight. Jenis autentikasi yang didukung adalah "BasicAuth", "SystemAssignedManagedIdentity", "UserAssignedManagedIdentity". | Diperlukan untuk menggunakan autentikasi Identitas Terkelola. Jika bidang tidak ada, akan default ke BasicAuth |
| credential | Tentukan referensi kredensial yang berisi informasi objek Identitas Terkelola untuk kluster HDInsight. | Hanya diperlukan untuk autentikasi "UserAssignedManagedIdentity" |
Authentication
Layanan tertaut Azure Storage untuk ADLS Gen2 sekarang mendukung identitas terkelola yang ditetapkan sistem dan ditetapkan pengguna selain metode autentikasi yang ada. Dukungan ini tersedia secara default saat menggunakan Azure Integration Runtime (Azure IR) dan didukung di Integration Runtime yang dihost sendiri (SHIR) mulai dari versi 5.55.9306.2 atau yang lebih baru. Untuk Azure Blob Storage, layanan tertaut Azure Storage terus hanya mendukung autentikasi kunci akun. Autentikasi identitas terkelola kluster juga sekarang tersedia secara default saat menggunakan IR Azure dan didukung pada SHIR yang dimulai dengan versi 5.58 atau yang lebih baru. Saat membuat kluster, hanya satu metode autentikasi yang dapat digunakan per kluster. Untuk detail tentang membuat dan mengelola kluster dengan identitas terkelola, lihat Buat dan kelola kluster Azure HDInsight dengan autentikasi Entra ID
Important
HDInsight mendukung beberapa versi kluster Hadoop yang dapat disebarkan. Setiap pilihan versi membuat versi tertentu dari distribusi Hortonworks Data Platform (HDP) dan sekumpulan komponen yang terkandung dalam distribusi tersebut. Daftar versi HDInsight yang didukung terus diperbarui untuk menyediakan komponen dan perbaikan ekosistem Hadoop terbaru. Pastikan Anda selalu merujuk ke informasi terbaru versi HDInsight yang didukung dan Jenis OS untuk memastikan Anda menggunakan versi HDInsight yang didukung.
Important
Saat ini, layanan tertaut HDInsight tidak mendukung HBase, Interactive Query (Hive LLAP), dan Storm.
layanan tertaut Azure Batch
Note
Kami menyarankan agar Anda menggunakan modul Az PowerShell Azure untuk berinteraksi dengan Azure. Untuk memulai, lihat Install Azure PowerShell. Untuk mempelajari cara bermigrasi ke modul Az PowerShell, lihat Migrasikan Azure PowerShell dari AzureRM ke Az.
Anda dapat membuat layanan tertaut Azure Batch untuk mendaftarkan kumpulan Batch komputer virtual (VM) ke data atau ruang kerja Synapse. Anda dapat menjalankan Aktivitas kustom menggunakan Azure Batch.
Lihat artikel berikut jika Anda baru dengan layanan Azure Batch:
- Dasar-dasar Azure Batch sebagai gambaran umum dari layanan Azure Batch.
- cmdlet New-AzBatchAccount untuk membuat akun Azure Batch (atau) portal Azure untuk membuat akun Azure Batch menggunakan portal Azure. Lihat artikel Gunakan PowerShell untuk mengelola Akun Azure Batch untuk instruksi terperinci tentang menggunakan cmdlet.
- cmdlet New-AzBatchPool untuk membuat kumpulan Azure Batch.
Important
Saat membuat kumpulan Azure Batch baru, 'VirtualMachineConfiguration' harus digunakan dan BUKAN 'CloudServiceConfiguration'.
Example
{
"name": "AzureBatchLinkedService",
"properties": {
"type": "AzureBatch",
"typeProperties": {
"accountName": "batchaccount",
"accessKey": {
"type": "SecureString",
"value": "access key"
},
"batchUri": "https://batchaccount.region.batch.azure.com",
"poolName": "poolname",
"linkedServiceName": {
"referenceName": "StorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Properties
| Property | Description | Required |
|---|---|---|
| jenis | Properti jenis harus ditentukan sebagai AzureBatch. | Yes |
| accountName | Nama akun Azure Batch. | Yes |
| accessKey | Kunci akses untuk akun Azure Batch. | Yes |
| batchUri | URL ke akun Azure Batch Anda, dalam format https://batchaccountname.region.batch.azure.com. | Yes |
| poolName | Nama kumpulan mesin virtual. | Yes |
| linkedServiceName | Nama layanan tertaut Azure Storage yang terkait dengan layanan Azure Batch ini. Layanan tertaut ini digunakan untuk menyiapkan file yang diperlukan untuk menjalankan aktivitas. | Yes |
| connectVia | Integration Runtime yang akan digunakan untuk mengirimkan aktivitas ke layanan tertaut ini. Anda dapat menggunakan Azure Integration Runtime atau Integration Runtime yang dihost sendiri. Jika tidak ditentukan, ia menggunakan Azure Integration Runtime default. | No |
layanan tertaut Machine Learning Studio (klasik)
Important
Dukungan untuk Azure Machine Learning Studio (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda beralih ke Azure Machine Learning pada tanggal tersebut.
Mulai 1 Desember 2021, Anda tidak dapat membuat sumber daya Machine Learning Studio (klasik) baru (ruang kerja dan paket layanan web). Hingga 31 Agustus 2024, Anda dapat terus menggunakan eksperimen dan layanan web Machine Learning Studio (klasik) yang ada. Untuk informasi selengkapnya, lihat:
- Migrasi ke Azure Machine Learning dari Machine Learning Studio (klasik)
- Apa itu Azure Machine Learning?
dokumentasi Machine Learning Studio (klasik) sedang dihentikan dan mungkin tidak diperbarui di masa mendatang.
Anda membuat layanan terkait Machine Learning Studio (klasik) untuk mendaftarkan titik akhir penilaian batch Machine Learning Studio (klasik) ke dalam pabrik data atau ruang kerja Synapse.
Example
{
"name": "AzureMLLinkedService",
"properties": {
"type": "AzureML",
"typeProperties": {
"mlEndpoint": "https://[batch scoring endpoint]/jobs",
"apiKey": {
"type": "SecureString",
"value": "access key"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Properties
| Property | Description | Required |
|---|---|---|
| Type | Properti jenis harus diatur ke: AzureML. | Yes |
| mlEndpoint | URL penilaian kelompok. | Yes |
| apiKey | API dari model ruang kerja yang diterbitkan | Yes |
| updateResourceEndpoint | URL Update Resource untuk endpoint Layanan Web ML Studio (klasik) yang digunakan untuk memperbarui Layanan Web prediktif dengan file model yang sudah dilatih. | No |
| servicePrincipalId | Menentukan ID klien aplikasi. | Diperlukan jika updateResourceEndpoint ditentukan |
| servicePrincipalKey | Tentukan kunci aplikasi. | Diperlukan jika updateResourceEndpoint ditentukan |
| penyewa | Tentukan informasi penyewa (nama domain atau ID penyewa) tempat aplikasi Anda berada. Anda dapat mengambilnya dengan mengarahkan mouse ke sudut kanan atas portal Azure. | Diperlukan jika updateResourceEndpoint ditentukan |
| connectVia | Integration Runtime yang akan digunakan untuk mengirimkan aktivitas ke layanan tertaut ini. Anda dapat menggunakan Azure Integration Runtime atau Integration Runtime yang dihost sendiri. Jika tidak ditentukan, ia menggunakan Azure Integration Runtime default. | No |
layanan terkait Azure Machine Learning
Anda membuat layanan tertaut Azure Machine Learning untuk menyambungkan ruang kerja Azure Machine Learning ke pabrik data atau ruang kerja Synapse.
Note
Saat ini hanya jenis autentikasi service principal yang didukung untuk layanan tertaut Azure Machine Learning.
Example
{
"name": "AzureMLServiceLinkedService",
"properties": {
"type": "AzureMLService",
"typeProperties": {
"subscriptionId": "subscriptionId",
"resourceGroupName": "resourceGroupName",
"mlWorkspaceName": "mlWorkspaceName",
"servicePrincipalId": "service principal id",
"servicePrincipalKey": {
"value": "service principal key",
"type": "SecureString"
},
"tenant": "tenant ID"
},
"connectVia": {
"referenceName": "<name of Integration Runtime?",
"type": "IntegrationRuntimeReference"
}
}
}
Properties
| Property | Description | Required |
|---|---|---|
| Type | Properti jenis harus diatur ke: AzureMLService. | Yes |
| subscriptionId | ID langganan Azure | Yes |
| resourceGroupName | name | Yes |
| mlWorkspaceName | nama ruang kerja Azure Machine Learning | Yes |
| servicePrincipalId | Menentukan ID klien aplikasi. | Yes |
| servicePrincipalKey | Tentukan kunci aplikasi. | Yes |
| penyewa | Tentukan informasi penyewa (nama domain atau ID penyewa) tempat aplikasi Anda berada. Anda dapat mengambilnya dengan mengarahkan mouse ke sudut kanan atas portal Azure. | Diperlukan jika updateResourceEndpoint ditentukan |
| connectVia | Integration Runtime yang akan digunakan untuk mengirimkan aktivitas ke layanan tertaut ini. Anda dapat menggunakan Azure Integration Runtime atau Integration Runtime yang dihost sendiri. Jika tidak ditentukan, ia menggunakan Azure Integration Runtime default. | No |
layanan tertaut Azure Data Lake Analytics
Anda membuat layanan tertaut Azure Data Lake Analytics untuk menautkan layanan komputasi Azure Data Lake Analytics ke pabrik data atau ruang kerja Synapse. Aktivitas Analitik Data Lake U-SQL dalam pipeline berkaitan dengan layanan tertaut ini.
Example
{
"name": "AzureDataLakeAnalyticsLinkedService",
"properties": {
"type": "AzureDataLakeAnalytics",
"typeProperties": {
"accountName": "adftestaccount",
"dataLakeAnalyticsUri": "azuredatalakeanalytics URI",
"servicePrincipalId": "service principal id",
"servicePrincipalKey": {
"value": "service principal key",
"type": "SecureString"
},
"tenant": "tenant ID",
"subscriptionId": "<optional, subscription ID of ADLA>",
"resourceGroupName": "<optional, resource group name of ADLA>"
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Properties
| Property | Description | Required |
|---|---|---|
| jenis | Properti jenis harus diatur ke: AzureDataLakeAnalytics. | Yes |
| accountName | Nama Akun Azure Data Lake Analytics. | Yes |
| dataLakeAnalyticsUri | Azure Data Lake Analytics URI. | No |
| subscriptionId | ID langganan Azure | No |
| resourceGroupName | nama grup sumber daya Azure | No |
| servicePrincipalId | Menentukan ID klien aplikasi. | Yes |
| servicePrincipalKey | Tentukan kunci aplikasi. | Yes |
| penyewa | Tentukan informasi penyewa (nama domain atau ID penyewa) tempat aplikasi Anda berada. Anda dapat mengambilnya dengan mengarahkan mouse ke sudut kanan atas portal Azure. | Yes |
| connectVia | Integration Runtime yang akan digunakan untuk mengirimkan aktivitas ke layanan tertaut ini. Anda dapat menggunakan Azure Integration Runtime atau Integration Runtime yang dihost sendiri. Jika tidak ditentukan, ia menggunakan Azure Integration Runtime default. | No |
layanan terkait Azure Databricks
Anda dapat membuat Azure Databricks layanan tertaut untuk mendaftarkan ruang kerja Databricks yang Anda gunakan untuk menjalankan beban kerja Databricks(notebook, jar, python).
Important
Layanan tertaut Databricks mendukung kumpulan Instans & Autentikasi identitas terkelola yang ditetapkan sistem.
Contoh - Menggunakan kluster pekerjaan baru di Databricks
{
"name": "AzureDatabricks_LS",
"properties": {
"type": "AzureDatabricks",
"typeProperties": {
"domain": "https://eastus.azuredatabricks.net",
"newClusterNodeType": "Standard_D3_v2",
"newClusterNumOfWorker": "1:10",
"newClusterVersion": "4.0.x-scala2.11",
"accessToken": {
"type": "SecureString",
"value": "YourAccessToken"
}
}
}
}
Contoh - Menggunakan kluster Interaktif yang ada di Databricks
{
"name": " AzureDataBricksLinkedService",
"properties": {
"type": " AzureDatabricks",
"typeProperties": {
"domain": "https://westeurope.azuredatabricks.net",
"accessToken": {
"type": "SecureString",
"value": "YourAccessToken"
},
"existingClusterId": "{clusterId}"
}
}
Properties
| Property | Description | Required |
|---|---|---|
| name | Nama Layanan Tertaut | Yes |
| jenis | Properti jenis harus diatur ke: Azure Databricks. | Yes |
| domain | Tentukan Wilayah Azure yang sesuai berdasarkan wilayah ruang kerja Databricks. Contoh: https://eastus.azuredatabricks.net | Yes |
| accessToken | Token akses diperlukan agar layanan dapat mengautentikasi ke Azure Databricks. Token akses harus dihasilkan dari ruang kerja Databricks. Langkah-langkah lebih rinci untuk menemukan token access dapat ditemukan here | No |
| MSI | Gunakan identitas terkelola layanan (ditetapkan sistem) untuk mengautentikasi ke Azure Databricks. Anda tidak memerlukan Token Access saat menggunakan autentikasi 'MSI'. Detail selengkapnya tentang autentikasi Identitas Terkelola dapat ditemukan here | No |
| existingClusterId | ID klaster dari klaster yang ada untuk menjalankan semua tugas padanya. Ini harus merupakan Kluster Interaktif yang sudah ada. Anda mungkin perlu menghidupkan ulang kluster secara manual jika kluster berhenti merespons. Databricks menyarankan untuk menjalankan pekerjaan pada kluster baru untuk keandalan yang lebih besar. Anda dapat menemukan ID Kluster Interaktif di ruang kerja Databricks -> Kluster -> Nama Kluster Interaktif -> Konfigurasi -> Tag. Detail Selengkapnya | No |
| instancePoolId | ID Kumpulan Instans dari kumpulan yang ada di ruang kerja databricks. | No |
| newClusterVersion | Versi kluster dari Spark. Ini membuat kluster pekerjaan di databricks. | No |
| newClusterNumOfWorker | Jumlah node pekerja yang seharusnya dimiliki oleh klaster ini. Kluster memiliki satu Driver Spark dan Eksekutor num_workers dengan total num_workers + 1 simpul Spark. String yang diformat Int32, seperti "1" berarti jumlahPekerja adalah 1 atau "1:10" berarti skala otomatis dari 1 sebagai minimum dan 10 sebagai maksimum. | No |
| newClusterNodeType | Bidang ini mengkodekan, melalui satu nilai, sumber daya yang tersedia untuk masing-masing node Spark di kluster ini. Misalnya, node Spark dapat disediakan dan dioptimalkan untuk beban kerja yang intensif memori atau komputasi. Bidang ini diperlukan untuk kluster baru | No |
| newClusterSparkConf | satu set pasangan kunci-nilai konfigurasi Spark yang ditentukan oleh pengguna secara opsional. Pengguna juga dapat meneruskan serangkaian opsi JVM tambahan ke driver dan pelaksana melalui spark.driver.extraJavaOptions dan spark.executor.extraJavaOptions masing-masing. | No |
| newClusterInitScripts | satu set skrip inisialisasi opsional yang ditentukan pengguna untuk kluster baru. Anda dapat menentukan skrip init dalam file ruang kerja (disarankan) atau melalui jalur DBFS (warisan). | No |
layanan terhubung Azure SQL Database
Anda membuat layanan tertaut Azure SQL dan menggunakannya dengan Aktivitas Prosedur Tersimpan untuk memanggil prosedur tersimpan dari alur. Lihat artikel Azure SQL Connector untuk detail tentang layanan tertaut ini.
layanan tertaut Azure Synapse Analytics
Anda membuat layanan tertaut Azure Synapse Analytics dan menggunakannya dengan Stored Procedure Activity untuk memanggil prosedur tersimpan dari alur. Lihat artikel Azure Synapse Analytics Connector untuk detail tentang layanan tertaut ini.
layanan tertaut SQL Server
Anda membuat layanan tertaut SQL Server dan menggunakannya dengan Aktivitas Prosedur Tersimpan untuk memanggil prosedur tersimpan dari aliran data. Lihat artikel konektor SQL Server untuk detail tentang layanan tertaut ini.
layanan terkait Azure Synapse Analytics (Artefak)
Anda membuat layanan tertaut Azure Synapse Analytics (Artefak) dan menggunakannya dengan Aktifitas Notebook Synapse dan Aktifitas definisi kerja Synapse Spark.
Example
{
"name": "AzureSynapseArtifacts",
"type": "Microsoft.DataFactory/factories/linkedservice",
"properties": {
"properties": {
"a":{
"type": "String"
}
},
"annotations": [],
"type": "AzureSynapseArtifacts",
"typeProperties": {
"endpoint": "@{linkedService().a}",
"authentication": "MSI",
"workspaceResourceId": ""
},
"ConnectVia":{
"referenceName": "integrationRuntime1",
"type": "IntegrationRuntimeReference"
}
}
}
Properties
| Property | Description | Required |
|---|---|---|
| name | Nama Layanan Tertaut | Yes |
| description | deskripsi Layanan Tertaut | No |
| annotations | anotasi Layanan Tertaut | No |
| jenis | Properti jenis harus diatur ke AzureSynapseArtifacts | Yes |
| titik akhir | URL Azure Synapse Analytics | Yes |
| autentikasi | Pengaturan defaultnya adalah Identitas Terkelola yang Ditetapkan Sistem | Yes |
| workspaceResourceId | ID Sumber Daya ruang kerja | Yes |
| connectVia | Integration Runtime yang akan digunakan untuk menyambungkan ke penyimpanan data. Anda dapat menggunakan Azure Integration Runtime. Jika tidak ditentukan, ia menggunakan Azure Integration Runtime default. Integration runtime yang dihost sendiri saat ini tidak didukung. | Yes |
layanan tertaut fungsi Azure
Anda membuat layanan tertaut Azure Function dan menggunakannya dengan aktivitas Azure Function untuk menjalankan Azure Functions dalam alur. Jenis pengembalian fungsi Azure harus berupa JObject yang valid. (Perlu diingat bahwa JArraybukan sebuah JObject.) Jenis pengembalian apa pun selain JObject gagal dan memunculkan kesalahan pengguna Response Content is not a valid JObject.
| Property | Description | Required |
|---|---|---|
| jenis | Properti tipe harus diatur ke: AzureFunction | yes |
| URL dari aplikasi fungsi | URL untuk Aplikasi Fungsi Azure. Format adalah https://<accountname>.azurewebsites.net. URL ini adalah nilai di bawah bagian URL saat melihat Aplikasi Fungsi Anda di portal Azure |
yes |
| kunci fungsi | Kunci akses untuk Fungsi Azure. Klik bagian Kelola untuk fungsi masing-masing, dan salin Kunci Fungsi atau kunci Host. Cari tahu selengkapnya di sini: Bekerja dengan kunci akses | yes |
Konten terkait
Untuk daftar aktivitas transformasi yang didukung, lihat Mengubah data.