Lingkungan komputasi yang didukung oleh Azure Data Factory dan alur Synapse
BERLAKU UNTUK: Azure Data Factory Azure Synapse Analytics
Tip
Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!
Penting
Dukungan untuk Azure Pembelajaran Mesin Studio (klasik) akan berakhir pada 31 Agustus 2024. Kami menyarankan agar Anda beralih ke Azure Pembelajaran Mesin pada tanggal tersebut.
Mulai 1 Desember 2021, Anda tidak dapat membuat sumber daya Pembelajaran Mesin Studio (klasik) baru (ruang kerja dan paket layanan web). Hingga 31 Agustus 2024, Anda dapat terus menggunakan eksperimen dan layanan web Pembelajaran Mesin Studio (klasik) yang ada. Untuk informasi selengkapnya, lihat:
- Bermigrasi ke Azure Pembelajaran Mesin dari Pembelajaran Mesin Studio (klasik)
- Apa itu Azure Pembelajaran Mesin?
dokumentasi Pembelajaran Mesin Studio (klasik) sedang dihentikan dan mungkin tidak diperbarui di masa mendatang.
Artikel ini menjelaskan lingkungan komputasi yang berbeda yang dapat Anda gunakan untuk memproses atau mentransformasi data. Ini juga memberikan detail tentang konfigurasi yang berbeda (sesuai permintaan vs. bawa sendiri) yang didukung saat mengonfigurasi layanan tertaut yang menautkan lingkungan komputasi ini.
Tabel berikut menyediakan daftar lingkungan komputasi yang didukung dan aktivitas yang dapat berjalan di dalamnya.
Lingkungan komputasi HDInsight
Lihat tabel di bawah ini untuk detail tentang jenis layanan penyimpanan tertaut yang didukung untuk konfigurasi di lingkungan Sesuai permintaan dan BYOC (Bawa komputasi Anda sendiri).
Dalam Layanan Komputasi Tertaut | Nama Properti | Deskripsi | Blob | ADLS Gen2 | Azure SQL DB | ADLS Gen 1 |
---|---|---|---|---|---|---|
Sesuai permintaan | linkedServiceName | Layanan tertaut Azure Storage untuk digunakan oleh kluster sesuai permintaan untuk menyimpan dan memproses data. | Ya | Ya | No | Tidak |
additionalLinkedServiceNames | Menentukan akun penyimpanan tambahan untuk layanan tertaut HDInsight sehingga layanan dapat mendaftarkannya atas nama Anda. | Ya | No | No | Tidak | |
hcatalogLinkedServiceName | Nama layanan tertaut Azure SQL yang menunjuk ke database HCatalog. Kluster HDInsight yang sesuai permintaan dibuat dengan menggunakan database Azure SQL sebagai metastore. | Tidak | No | Ya | Tidak | |
BYOC | linkedServiceName | Referensi layanan tertaut Azure Storage. | Ya | Ya | No | Tidak |
additionalLinkedServiceNames | Menentukan akun penyimpanan tambahan untuk layanan tertaut HDInsight sehingga layanan dapat mendaftarkannya atas nama Anda. | Tidak | No | No | Tidak | |
hcatalogLinkedServiceName | Referensi ke layanan tertaut Azure SQL yang mengarah ke database HCatalog. | Tidak | No | No | Tidak |
Layanan tertaut Azure HDInsight sesuai permintaan
Dalam jenis konfigurasi ini, lingkungan komputasi sepenuhnya dikelola oleh layanan. Layanan ini dibuat secara otomatis oleh layanan sebelum pekerjaan dikirimkan untuk memproses data dan dihapus ketika pekerjaan selesai. Anda dapat membuat layanan tertaut untuk lingkungan komputasi sesuai permintaan, mengonfigurasinya, dan mengontrol pengaturan granular untuk eksekusi pekerjaan, manajemen kluster, dan tindakan bootstrapping.
Catatan
Konfigurasi sesuai permintaan saat ini hanya didukung untuk kluster HDInsight. Azure Databricks juga mendukung pekerjaan sesuai permintaan menggunakan kluster pekerjaan. Untuk informasi selengkapnya, lihat Layanan tertaut databricks Azure.
Layanan ini dapat secara otomatis membuat kluster HDInsight sesuai permintaan untuk memproses data. Kluster ini dibuat di wilayah yang sama dengan akun penyimpanan (properti linkedServiceName di JSON) yang terkait dengan kluster. Akun penyimpanan must
menjadi akun Azure Storage standar tujuan umum.
Perhatikan poin-poin penting berikut tentang layanan tertaut HDInsight sesuai permintaan:
- Kluster HDInsight sesuai permintaan dibuat di bawah langganan Azure Anda. Anda dapat melihat kluster di portal Microsoft Azure saat kluster aktif dan berjalan.
- Log untuk pekerjaan yang dijalankan pada kluster HDInsight sesuai permintaan disalin ke akun penyimpanan yang terkait dengan kluster HDInsight. ClusterUserName, clusterPassword, clusterSshUserName, clusterSshPassword yang didefinisikan dalam definisi layanan tertaut Anda digunakan untuk masuk ke kluster untuk pemecahan masalah mendalam selama siklus hidup kluster.
- Anda hanya dikenakan biaya pada saat kluster HDInsight digunakan dan melakukan pekerjaan.
- Anda dapat menggunakan Tindakan Skrip dengan layanan tertaut Azure HDInsight sesuai permintaan.
Penting
Biasanya dibutuhkan waktu 20 menit atau lebih untuk menyediakan kluster HDInsight sesuai permintaan.
Contoh
JSON berikut mendefinisikan layanan tertaut HDInsight sesuai permintaan berbasis Linux. Layanan secara otomatis membuat kluster HDInsight berbasis Linux untuk memproses aktivitas yang diperlukan.
{
"name": "HDInsightOnDemandLinkedService",
"properties": {
"type": "HDInsightOnDemand",
"typeProperties": {
"clusterType": "hadoop",
"clusterSize": 1,
"timeToLive": "00:15:00",
"hostSubscriptionId": "<subscription ID>",
"servicePrincipalId": "<service principal ID>",
"servicePrincipalKey": {
"value": "<service principal key>",
"type": "SecureString"
},
"tenant": "<tenent id>",
"clusterResourceGroup": "<resource group name>",
"version": "3.6",
"osType": "Linux",
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Penting
Kluster HDInsight membuat kontainer default di penyimpanan blob yang Anda tentukan di JSON (linkedServiceName). HDInsight tidak menghapus kontainer ini ketika kluster dihapus. Perilaku ini secara desain. Dengan layanan terhubung HDInsight sesuai permintaan, kluster HDInsight dibuat setiap kali potongan diproses kecuali terdapat kluster hidup yang ada (timeToLive) dan dihapus ketika pemrosesan selesai.
Saat lebih banyak aktivitas berjalan, Anda akan melihat banyak kontainer di penyimpanan blob Azure Anda. Jika Anda tidak memerlukannya untuk memecahkan masalah pekerjaan, Anda mungkin ingin menghapusnya untuk mengurangi biaya penyimpanan. Nama-nama kontainer ini mengikuti pola: adf**yourfactoryorworkspacename**-**linkedservicename**-datetimestamp
. Gunakan alat seperti Microsoft Azure Storage Explorer untuk menghapus kontainer di penyimpanan blob Azure Anda.
Properti
Properti | Deskripsi | Wajib |
---|---|---|
jenis | Properti jenis harus diatur ke HDInsightOnDemand. | Ya |
clusterSize | Jumlah node pekerja/data di kluster. Kluster HDInsight dibuat dengan 2 node kepala bersama dengan jumlah node pekerja yang Anda tentukan untuk properti ini. Node berukuran Standard_D3 yang memiliki 4 inti, sehingga 4 kluster node pekerja menggunakan 24 inti (4*4 = 16 inti untuk node pekerja, ditambah 2*4 = 8 inti untuk node kepala). Lihat Menyiapkan kluster di HDInsight dengan Hadoop, Spark, Kafka, dan lainnya untuk selengkapnya. | Ya |
linkedServiceName | Layanan tertaut Azure Storage untuk digunakan oleh kluster sesuai permintaan untuk menyimpan dan memproses data. Kluster HDInsight dibuat di wilayah yang sama dengan akun Azure Storage ini. Azure HDInsight memiliki batasan jumlah total inti yang dapat Anda gunakan di setiap wilayah Azure yang didukung. Pastikan Anda memiliki cukup kuota inti di wilayah Azure tersebut untuk memenuhi clusterSize yang diperlukan. Untuk informasi lengkapnya, lihat Menyiapkan kluster di HDInsight dengan Hadoop, Spark, Kafka, dan lainnya Saat ini, Anda tidak dapat membuat kluster HDInsight sesuai permintaan yang menggunakan Azure Data Lake Storage (Gen 2) sebagai penyimpanan. Jika Anda ingin menyimpan data hasil dari pemrosesan HDInsight di Azure Data Lake Storage (Gen 2), gunakan Aktivitas Salin untuk menyalin data dari Azure Blob Storage ke Azure Data Lake Storage (Gen 2). |
Ya |
clusterResourceGroup | Kluster HDInsight dibuat dalam grup sumber daya ini. | Ya |
timetolive | Waktu diam yang diizinkan untuk kluster HDInsight sesuai permintaan. Menentukan berapa lama kluster HDInsight sesuai permintaan tetap hidup ketika aktivitas selesai, jika tidak ada pekerjaan aktif lainnya di kluster. Nilai minimal yang diperbolehkan adalah 5 menit (00:05:00). Misalnya, jika aktivitas berjalan membutuhkan waktu 6 menit dan timetolive diatur ke 5 menit, kluster tetap hidup selama 5 menit setelah 6 menit pemrosesan aktivitas berjalan. Jika aktivitas lain dijalankan di jendela 6 menit, aktivitas akan diproses oleh kluster yang sama. Membuat kluster HDInsight sesuai permintaan adalah operasi yang mahal (bisa memakan waktu cukup lama), jadi gunakan pengaturan ini sesuai kebutuhan untuk meningkatkan kinerja layanan dengan menggunakan kembali kluster HDInsight sesuai permintaan. Jika Anda menetapkan nilai timetolive ke 0, kluster akan dihapus segera setelah aktivitas berjalan selesai. Sedangkan, jika Anda menetapkan nilai tinggi, kluster dapat tetap menganggur bagi Anda untuk masuk untuk beberapa tujuan pemecahan masalah tetapi dapat mengakibatkan biaya tinggi. Oleh karena itu, penting bagi Anda untuk menetapkan nilai yang sesuai berdasarkan kebutuhan Anda. Jika nilai timetolive diatur dengan tepat, beberapa alur dapat membagikan instans kluster HDInsight sesuai permintaan. |
Ya |
clusterType | Jenis kluster HDInsight yang akan dibuat. Nilai yang diizinkan adalah "hadoop" dan "spark". Jika tidak ditentukan, nilai defaultnya adalah hadoop. Kluster yang diaktifkan Paket Keamanan Perusahaan tidak dapat dibuat sesuai permintaan, sebagai gantinya gunakan kluster yang ada/bawa komputasi Anda sendiri. | No |
versi | Versi kluster HDInsight. Jika tidak ditentukan, versi default yang ditentukan HDInsight saat ini akan digunakan. | No |
hostSubscriptionId | ID langganan Azure digunakan untuk membuat kluster HDInsight. Jika tidak ditentukan, ID Langganan konteks masuk Azure Anda akan digunakan. | No |
clusterNamePrefix | Awalan nama kluster HDI, tanda waktu secara otomatis ditambahkan di akhir nama kluster | No |
sparkVersion | Versi spark jika jenis kluster adalah "Spark" | No |
additionalLinkedServiceNames | Menentukan akun penyimpanan tambahan untuk layanan tertaut HDInsight sehingga layanan dapat mendaftarkannya atas nama Anda. Akun penyimpanan ini harus berada di wilayah yang sama dengan kluster HDInsight, yang dibuat di wilayah yang sama dengan akun penyimpanan yang ditentukan oleh linkedServiceName. | No |
osType | Jenis sistem operasi. Nilai yang diizinkan adalah: Linux dan Windows (hanya untuk HDInsight 3.3). Defaultnya adalah Linux. | No |
hcatalogLinkedServiceName | Nama layanan tertaut Azure SQL yang menunjuk ke database HCatalog. Kluster HDInsight sesuai permintaan dibuat dengan menggunakan Azure SQL Database sebagai metastore. | No |
connectVia | Integration Runtime yang akan digunakan untuk mengirimkan aktivitas ke layanan tertaut HDInsight ini. Untuk layanan tertaut HDInsight sesuai permintaan, layanan ini hanya mendukung Azure Integration Runtime. Jika tidak ditentukan, Azure Integration Runtime default akan digunakan. | No |
clusterUserName | Nama pengguna untuk mengakses kluster. | No |
clusterPassword | Kata sandi dalam jenis untai (karakter) aman untuk mengakses kluster. | No |
clusterSshUserName | Nama pengguna ke SSH terhubung dari jarak jauh ke node kluster (untuk Linux). | No |
clusterSshPassword | Kata sandi dalam jenis string aman ke SSH menghubungkan node kluster dari jarak jauh (untuk Linux). | No |
scriptActions | Tentukan skrip untuk kustomisasi kluster HDInsight selama pembuatan kluster sesuai permintaan. Saat ini, alat penyusunan tulisan UI mendukung untuk menentukan hanya 1 tindakan skrip, tetapi Anda dapat melewati batasan ini di JSON (tentukan beberapa tindakan skrip di JSON). |
No |
Penting
HDInsight mendukung beberapa versi kluster Hadoop yang dapat disebarkan. Setiap pilihan versi membuat versi tertentu dari distribusi Hortonworks Data Platform (HDP) dan sekumpulan komponen yang terkandung dalam distribusi tersebut. Daftar versi HDInsight yang didukung terus diperbarui untuk menyediakan komponen dan perbaikan ekosistem Hadoop terbaru. Pastikan Anda selalu merujuk ke informasi terbaru Versi HDInsight yang didukung dan Jenis OS untuk memastikan Anda menggunakan versi HDInsight yang didukung.
Penting
Saat ini, layanan tertaut HDInsight tidak mendukung HBase, Interactive Query (Apache Hive LLAP), Storm.
- contoh additionalLinkedServiceNames JSON
"additionalLinkedServiceNames": [{
"referenceName": "MyStorageLinkedService2",
"type": "LinkedServiceReference"
}]
Autentikasi perwakilan layanan
Layanan tertaut HDInsight Sesuai Permintaan memerlukan autentikasi utama layanan untuk membuat kluster HDInsight atas nama Anda. Untuk menggunakan autentikasi perwakilan layanan, daftarkan entitas aplikasi di ID Microsoft Entra dan berikan peran Kontributor langganan atau grup sumber daya tempat kluster HDInsight dibuat. Untuk langkah-langkah mendetail, lihat Menggunakan portal untuk membuat aplikasi Microsoft Entra dan perwakilan layanan yang dapat mengakses sumber daya. Catat nilai berikut, yang Anda gunakan untuk menentukan layanan tertaut:
- ID aplikasi
- Kunci Aplikasi
- ID Penyewa
Gunakan autentikasi perwakilan layanan dengan menentukan properti berikut:
Properti | Deskripsi | Wajib diisi |
---|---|---|
servicePrincipalId | Menentukan ID klien aplikasi. | Ya |
servicePrincipalKey | Tentukan kunci aplikasi. | Ya |
penyewa | Tentukan informasi penyewa (nama domain atau ID penyewa) tempat aplikasi Anda berada. Anda dapat mengambilnya dengan mengarahkan mouse ke sudut kanan atas portal Microsoft Azure. | Ya |
Properti Tingkat Lanjut
Anda dapat menentukan properti berikut untuk konfigurasi terperinci dari kluster HDInsight sesuai permintaan.
Properti | Deskripsi | Wajib diisi |
---|---|---|
coreConfiguration | Menentukan parameter konfigurasi inti (seperti di core-site.xml) agar kluster HDInsight dibuat. | No |
hBaseConfiguration | Menentukan parameter konfigurasi HBase (hbase-site.xml) untuk kluster HDInsight. | No |
hdfsConfiguration | Menentukan parameter konfigurasi HDFS (hdfs-site.xml) untuk kluster HDInsight. | No |
hiveConfiguration | Menentukan parameter konfigurasi hive (hive-site.xml) untuk kluster HDInsight. | No |
mapReduceConfiguration | Menentukan parameter konfigurasi MapReduce (mapreduce-site.xml) agar kluster HDInsight. | No |
oozieConfiguration | Menentukan parameter konfigurasi Oozie (oozie-site.xml) untuk kluster HDInsight. | No |
stormConfiguration | Menentukan parameter konfigurasi Storm (storm-site.xml) untuk kluster HDInsight. | No |
yarnConfiguration | Menentukan parameter konfigurasi Yarn (yarn-site.xml) untuk kluster HDInsight. | No |
- Contoh - Konfigurasi kluster HDInsight sesuai permintaan dengan properti tingkat lanjut
{
"name": " HDInsightOnDemandLinkedService",
"properties": {
"type": "HDInsightOnDemand",
"typeProperties": {
"clusterSize": 16,
"timeToLive": "01:30:00",
"hostSubscriptionId": "<subscription ID>",
"servicePrincipalId": "<service principal ID>",
"servicePrincipalKey": {
"value": "<service principal key>",
"type": "SecureString"
},
"tenant": "<tenent id>",
"clusterResourceGroup": "<resource group name>",
"version": "3.6",
"osType": "Linux",
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
},
"coreConfiguration": {
"templeton.mapper.memory.mb": "5000"
},
"hiveConfiguration": {
"templeton.mapper.memory.mb": "5000"
},
"mapReduceConfiguration": {
"mapreduce.reduce.java.opts": "-Xmx4000m",
"mapreduce.map.java.opts": "-Xmx4000m",
"mapreduce.map.memory.mb": "5000",
"mapreduce.reduce.memory.mb": "5000",
"mapreduce.job.reduce.slowstart.completedmaps": "0.8"
},
"yarnConfiguration": {
"yarn.app.mapreduce.am.resource.mb": "5000",
"mapreduce.map.memory.mb": "5000"
},
"additionalLinkedServiceNames": [{
"referenceName": "MyStorageLinkedService2",
"type": "LinkedServiceReference"
}]
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
Ukuran node
Anda dapat menentukan ukuran node kepala, data, dan ZooKeeper menggunakan properti berikut:
Properti | Deskripsi | Wajib diisi |
---|---|---|
headNodeSize | Menentukan ukuran node kepala. Nilai defaultnya adalah: Standard_D3. Lihat Menentukan ukuran node untuk selengkapnya. | No |
dataNodeSize | Menentukan ukuran node data. Nilai defaultnya adalah: Standard_D3. | No |
zookeeperNodeSize | Menentukan ukuran node Zoo Keeper. Nilai defaultnya adalah: Standard_D3. | No |
- Menentukan ukuran node Lihat artikel Ukuran Virtual Machines untuk nilai untai (karakter) yang perlu Anda tentukan untuk properti yang disebutkan di bagian sebelumnya. Nilai harus sesuai dengan CMDLET & APIS yang direferensikan dalam artikel. Seperti yang Anda lihat dalam artikel, simpul data ukuran Besar (default) memiliki memori 7 GB, yang mungkin tidak cukup baik untuk skenario Anda.
Jika Anda ingin membuat node kepala dan node pekerja berukuran D4, tentukan Standard_D4 sebagai nilai untuk properti headNodeSize dan dataNodeSize.
"headNodeSize": "Standard_D4",
"dataNodeSize": "Standard_D4",
Jika Anda menentukan nilai yang salah untuk properti ini, Anda mungkin menerima kesalahan berikut : Gagal membuat kluster. Pengecualian: Tidak dapat menyelesaikan operasi pembuatan kluster. Operasi gagal dengan kode '400'. Kluster meninggalkan status: 'Kesalahan'. Pesan: 'PreClusterCreationValidationFailure'. Saat Anda menerima kesalahan ini, pastikan Anda menggunakan CMDLET & nama APIS dari tabel di artikel Ukuran Virtual Machines.
Bawa lingkungan komputasi Anda sendiri
Dalam jenis konfigurasi ini, pengguna dapat mendaftarkan lingkungan komputasi yang sudah ada sebagai layanan tertaut di Data Factory. Lingkungan komputasi ini dikelola oleh Anda dan layanan menggunakannya untuk menjalankan aktivitas.
Tipe konfigurasi ini didukung untuk lingkungan komputasi berikut:
- Azure HDInsight
- Azure Batch
- Pembelajaran Mesin Azure
- Azure Data Lake Analytics
- Azure SQL, Azure Synapse Analytics, SQL Server
Membuat layanan tertaut Azure HDInsight
Anda dapat membuat layanan tertaut Azure HDInsight untuk mendaftarkan kluster HDInsight Anda sendiri dengan pabrik data atau ruang kerja Synapse.
Contoh
{
"name": "HDInsightLinkedService",
"properties": {
"type": "HDInsight",
"typeProperties": {
"clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
"userName": "username",
"password": {
"value": "passwordvalue",
"type": "SecureString"
},
"linkedServiceName": {
"referenceName": "AzureStorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Properti
Properti | Deskripsi | Wajib |
---|---|---|
jenis | Properti jenis harus diatur ke HDInsight. | Ya |
clusterUri | URI dari kluster HDInsight. | Ya |
Nama pengguna | Tentukan nama akun pengguna yang digunakan untuk menyambungkan ke kluster HDInsight yang ada. | Ya |
kata sandi | Tentukan kata sandi untuk akun pengguna. | Ya |
linkedServiceName | Nama layanan tertaut Microsoft Azure Storage yang mengacu pada penyimpanan blob Azure yang digunakan oleh kluster HDInsight. Saat ini, Anda tidak dapat menentukan layanan tertaut Azure Data Lake Storage (Gen 2) untuk properti ini. Jika kluster HDInsight memiliki akses ke Data Lake Store, Anda dapat mengakses data di Azure Data Lake Storage (Gen 2) dari skrip Apache Hive/Pig. |
Ya |
isEspEnabled | Tentukan 'benar' jika kluster HDInsight adalah Paket Keamanan Perusahaanyang diaktifkan. Default adalah ‘salah’. | No |
connectVia | Integration Runtime yang akan digunakan untuk mengirimkan aktivitas ke layanan tertaut ini. Anda dapat menggunakan Azure Integration Runtime atau Self-hosted Integration Runtime. Jika tidak ditentukan, Azure Integration Runtime default akan digunakan. Untuk kluster HDInsight yang mengaktifkan Paket Keamanan Perusahaan (ESP) dan menggunakan runtime integrasi yang dihost sendiri, yang memiliki garis pandang ke kluster atau harus disebarkan di dalam Virtual Network yang sama dengan kluster ESP HDInsight. |
No |
Penting
HDInsight mendukung beberapa versi kluster Hadoop yang dapat disebarkan. Setiap pilihan versi membuat versi tertentu dari distribusi Hortonworks Data Platform (HDP) dan sekumpulan komponen yang terkandung dalam distribusi tersebut. Daftar versi HDInsight yang didukung terus diperbarui untuk menyediakan komponen dan perbaikan ekosistem Hadoop terbaru. Pastikan Anda selalu merujuk ke informasi terbaru Versi HDInsight yang didukung dan Jenis OS untuk memastikan Anda menggunakan versi HDInsight yang didukung.
Penting
Saat ini, layanan tertaut HDInsight tidak mendukung HBase, Interactive Query (Apache Hive LLAP), Storm.
Membuat layanan tertaut Azure Batch
Catatan
Sebaiknya Anda menggunakan modul Azure Az PowerShell untuk berinteraksi dengan Azure. Untuk memulai, lihat Menginstal Azure PowerShell. Untuk mempelajari cara bermigrasi ke modul Az PowerShell, lihat Memigrasikan Azure PowerShell dari AzureRM ke Az.
Anda dapat membuat layanan tertaut Azure Batch untuk mendaftarkan kumpulan Batch komputer virtual (VM) ke data atau ruang kerja Synapse. Anda dapat menjalankan aktivitas Kustom menggunakan Azure Batch.
Lihat artikel berikut ini jika Anda baru menggunakan layanan Azure Batch:
- Dasar-dasar Azure Batch untuk gambaran umum layanan Azure Batch.
- Cmdlet New-AzBatchAccount untuk membuat akun Azure Batch (atau) portal Microsoft Azure untuk membuat akun Azure Batch menggunakan portal Microsoft Azure. Lihat artikel Menggunakan PowerShell untuk mengelola Akun Azure Batch untuk instruksi mendetail tentang penggunaan cmdlet.
- Cmdlet New-AzBatchPool untuk membuat kumpulan Azure Batch.
Penting
Saat membuat kumpulan Azure Batch baru, 'VirtualMachineConfiguration' harus digunakan dan BUKAN 'CloudServiceConfiguration'. Untuk detail selengkapnya lihat panduan migrasi Azure Batch Pool.
Contoh
{
"name": "AzureBatchLinkedService",
"properties": {
"type": "AzureBatch",
"typeProperties": {
"accountName": "batchaccount",
"accessKey": {
"type": "SecureString",
"value": "access key"
},
"batchUri": "https://batchaccount.region.batch.azure.com",
"poolName": "poolname",
"linkedServiceName": {
"referenceName": "StorageLinkedService",
"type": "LinkedServiceReference"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Properti
Properti | Deskripsi | Wajib |
---|---|---|
jenis | Properti jenis harus diatur ke AzureBatch. | Ya |
accountName | Nama akun Azure Batch. | Ya |
accessKey | Kunci akses untuk akun Azure Batch. | Ya |
batchUri | URL ke akun Azure Batch Anda, dalam format https://batchaccountname.region.batch.azure.com. | Ya |
poolName | Nama kumpulan komputer virtual. | Ya |
linkedServiceName | Nama layanan tertaut Microsoft Azure Storage yang terkait dengan layanan tertaut Microsoft Azure Batch ini. Layanan tertaut ini digunakan untuk file pembuat tahapan yang diperlukan untuk menjalankan aktivitas. | Ya |
connectVia | Integration Runtime yang akan digunakan untuk mengirimkan aktivitas ke layanan tertaut ini. Anda dapat menggunakan Azure Integration Runtime atau Self-hosted Integration Runtime. Jika tidak ditentukan, Azure Integration Runtime default akan digunakan. | No |
Layanan tertaut Azure Machine Learning Studio (klasik)
Penting
Dukungan untuk Azure Pembelajaran Mesin Studio (klasik) akan berakhir pada 31 Agustus 2024. Kami menyarankan agar Anda beralih ke Azure Pembelajaran Mesin pada tanggal tersebut.
Mulai 1 Desember 2021, Anda tidak dapat membuat sumber daya Pembelajaran Mesin Studio (klasik) baru (ruang kerja dan paket layanan web). Hingga 31 Agustus 2024, Anda dapat terus menggunakan eksperimen dan layanan web Pembelajaran Mesin Studio (klasik) yang ada. Untuk informasi selengkapnya, lihat:
- Bermigrasi ke Azure Pembelajaran Mesin dari Pembelajaran Mesin Studio (klasik)
- Apa itu Azure Pembelajaran Mesin?
dokumentasi Pembelajaran Mesin Studio (klasik) sedang dihentikan dan mungkin tidak diperbarui di masa mendatang.
Anda membuat layanan tertaut Pembelajaran Mesin Studio (klasik) untuk mendaftarkan titik akhir penilaian batch Pembelajaran Mesin Studio (klasik) ke pabrik data atau ruang kerja Synapse.
Contoh
{
"name": "AzureMLLinkedService",
"properties": {
"type": "AzureML",
"typeProperties": {
"mlEndpoint": "https://[batch scoring endpoint]/jobs",
"apiKey": {
"type": "SecureString",
"value": "access key"
}
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Properti
Properti | Deskripsi | Wajib |
---|---|---|
Tipe | Properti jenis harus diatur ke: AzureML. | Ya |
mlEndpoint | URL penilaian batch. | Ya |
apiKey | API model ruang kerja yang dipublikasikan. | Ya |
updateResourceEndpoint | URL Sumber Daya Pembaruan untuk titik akhir Layanan Web ML Studio (klasik) yang digunakan untuk memperbarui Layanan Web prediktif dengan file model terlatih | No |
servicePrincipalId | Menentukan ID klien aplikasi. | Diperlukan jika updateResourceEndpoint ditentukan |
servicePrincipalKey | Tentukan kunci aplikasi. | Diperlukan jika updateResourceEndpoint ditentukan |
penyewa | Tentukan informasi penyewa (nama domain atau ID penyewa) tempat aplikasi Anda berada. Anda dapat mengambilnya dengan mengarahkan mouse ke sudut kanan atas portal Microsoft Azure. | Diperlukan jika updateResourceEndpoint ditentukan |
connectVia | Integration Runtime yang akan digunakan untuk mengirimkan aktivitas ke layanan tertaut ini. Anda dapat menggunakan Azure Integration Runtime atau Self-hosted Integration Runtime. Jika tidak ditentukan, Azure Integration Runtime default akan digunakan. | No |
Layanan tertaut Azure Machine Learning
Anda membuat layanan tertaut Azure Machine Learning untuk menyambungkan ruang kerja Azure Machine Learning ke pabrik data atau ruang kerja Synapse.
Catatan
Saat ini hanya autentikasi utama layanan yang didukung untuk layanan tertaut Azure Machine Learning.
Contoh
{
"name": "AzureMLServiceLinkedService",
"properties": {
"type": "AzureMLService",
"typeProperties": {
"subscriptionId": "subscriptionId",
"resourceGroupName": "resourceGroupName",
"mlWorkspaceName": "mlWorkspaceName",
"servicePrincipalId": "service principal id",
"servicePrincipalKey": {
"value": "service principal key",
"type": "SecureString"
},
"tenant": "tenant ID"
},
"connectVia": {
"referenceName": "<name of Integration Runtime?",
"type": "IntegrationRuntimeReference"
}
}
}
Properti
Properti | Deskripsi | Wajib |
---|---|---|
Tipe | Properti jenis harus diatur ke: AzureMLService. | Ya |
subscriptionId | ID langganan Azure | Ya |
resourceGroupName | nama | Ya |
mlWorkspaceName | Nama ruang kerja Azure Machine Learning | Ya |
servicePrincipalId | Menentukan ID klien aplikasi. | Ya |
servicePrincipalKey | Tentukan kunci aplikasi. | Ya |
penyewa | Tentukan informasi penyewa (nama domain atau ID penyewa) tempat aplikasi Anda berada. Anda dapat mengambilnya dengan mengarahkan mouse ke sudut kanan atas portal Microsoft Azure. | Diperlukan jika updateResourceEndpoint ditentukan |
connectVia | Integration Runtime yang akan digunakan untuk mengirimkan aktivitas ke layanan tertaut ini. Anda dapat menggunakan Azure Integration Runtime atau Self-hosted Integration Runtime. Jika tidak ditentukan, Azure Integration Runtime default akan digunakan. | No |
Layanan tertaut Azure Data Lake Analytics
Anda membuat layanan tertaut Azure Data Lake Analytics untuk menautkan layanan komputasi Azure Data Lake Analytics ke pabrik data atau ruang kerja Synapse. Aktivitas Data Lake Analytics U-SQL dalam alur mengacu pada layanan tertaut ini.
Contoh
{
"name": "AzureDataLakeAnalyticsLinkedService",
"properties": {
"type": "AzureDataLakeAnalytics",
"typeProperties": {
"accountName": "adftestaccount",
"dataLakeAnalyticsUri": "azuredatalakeanalytics URI",
"servicePrincipalId": "service principal id",
"servicePrincipalKey": {
"value": "service principal key",
"type": "SecureString"
},
"tenant": "tenant ID",
"subscriptionId": "<optional, subscription ID of ADLA>",
"resourceGroupName": "<optional, resource group name of ADLA>"
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
Properti
Properti | Deskripsi | Wajib |
---|---|---|
jenis | Properti jenis harus diatur ke: AzureDataLakeAnalytics. | Ya |
accountName | Nama Akun Azure Data Lake Analytics. | Ya |
dataLakeAnalyticsUri | URI Azure Data Lake Analytics. | No |
subscriptionId | ID langganan Azure | No |
resourceGroupName | Nama grup sumber daya Azure | No |
servicePrincipalId | Menentukan ID klien aplikasi. | Ya |
servicePrincipalKey | Tentukan kunci aplikasi. | Ya |
penyewa | Tentukan informasi penyewa (nama domain atau ID penyewa) tempat aplikasi Anda berada. Anda dapat mengambilnya dengan mengarahkan mouse ke sudut kanan atas portal Microsoft Azure. | Ya |
connectVia | Integration Runtime yang akan digunakan untuk mengirimkan aktivitas ke layanan tertaut ini. Anda dapat menggunakan Azure Integration Runtime atau Self-hosted Integration Runtime. Jika tidak ditentukan, Azure Integration Runtime default akan digunakan. | No |
Layanan Tertaut Azure Databricks
Anda dapat membuat layanan tertaut Azure Databricks untuk mendaftarkan ruang kerja Databricks yang Anda gunakan untuk menjalankan beban kerja Databricks (notebook, jar, python).
Penting
Layanan tertaut Databricks mendukung Kumpulan instans & Autentikasi identitas terkelola yang ditetapkan sistem.
Contoh - Menggunakan kluster pekerjaan baru di Databricks
{
"name": "AzureDatabricks_LS",
"properties": {
"type": "AzureDatabricks",
"typeProperties": {
"domain": "https://eastus.azuredatabricks.net",
"newClusterNodeType": "Standard_D3_v2",
"newClusterNumOfWorker": "1:10",
"newClusterVersion": "4.0.x-scala2.11",
"accessToken": {
"type": "SecureString",
"value": "YourAccessToken"
}
}
}
}
Contoh - Menggunakan kluster Interaktif yang ada di Databricks
{
"name": " AzureDataBricksLinkedService",
"properties": {
"type": " AzureDatabricks",
"typeProperties": {
"domain": "https://westeurope.azuredatabricks.net",
"accessToken": {
"type": "SecureString",
"value": "YourAccessToken"
},
"existingClusterId": "{clusterId}"
}
}
Properti
Properti | Deskripsi | Wajib |
---|---|---|
nama | Nama Layanan Tertaut | Ya |
jenis | Properti jenis harus diatur ke: Azure Databricks. | Ya |
domain | Tentukan Wilayah Azure yang sesuai berdasarkan wilayah ruang kerja Databricks. Contoh: https://eastus.azuredatabricks.net | Ya |
accessToken | Token akses diperlukan agar layanan dapat mengautentikasi ke Azure Databricks. Token akses perlu dihasilkan dari ruang kerja databricks. Langkah-langkah detail selengkapnya untuk menemukan token akses dapat ditemukan di sini | No |
MSI | Gunakan identitas terkelola layanan (berbasis sistem) untuk mengautentikasi ke Azure Databricks. Anda tidak memerlukan Token Akses saat menggunakan autentikasi 'MSI'. Detail selengkapnya tentang autentikasi Identitas Terkelola dapat ditemukan di sini | No |
existingClusterId | ID kluster dari kluster yang ada untuk menjalankan semua pekerjaan ini. ID kluster Ini harus menjadi Kluster Interaktif yang sudah dibuat. Anda mungkin perlu menghidupkan ulang kluster secara manual jika kluster berhenti merespons. Databricks menyarankan untuk menjalankan pekerjaan pada kluster baru untuk keandalan yang lebih besar. Anda dapat menemukan ID Kluster dari Kluster Interaktif di ruang kerja Databricks -> Kluster -> Nama Kluster Interaktif -> Konfigurasi -> Tag. Detail Selengkapnya | No |
instancePoolId | ID Kumpulan Instans dari kumpulan yang ada di ruang kerja databricks. | No |
newClusterVersion | Versi Spark dari kluster. Versi Ini menciptakan kluster pekerjaan dalam databricks. | No |
newClusterNumOfWorker | Jumlah node pekerja yang seharusnya dimiliki oleh kluster ini. Kluster memiliki satu Spark Driver dan num_workers Executors dengan total num_workers + 1 node Spark. String yang diformat Int32, seperti "1" berarti numOfWorker adalah 1 atau "1:10" berarti penskalaan otomatis dari 1 sebagai min dan 10 sebagai maks. | No |
newClusterNodeType | Bidang ini mengkodekan, melalui satu nilai, sumber daya yang tersedia untuk masing-masing node Spark di kluster ini. Misalnya, node Spark dapat disediakan dan dioptimalkan untuk beban kerja intensif memori atau komputasi. Bidang ini diperlukan untuk kluster baru | No |
newClusterSparkConf | sekumpulan pasangan kunci nilai konfigurasi Spark opsional yang ditentukan pengguna. Pengguna juga dapat meneruskan serangkaian opsi JVM tambahan ke driver dan pelaksana melalui spark.driver.extraJavaOptions dan spark.executor.extraJavaOptions masing-masing. | No |
newClusterInitScripts | sekumpulan skrip inisialisasi opsional yang ditentukan pengguna untuk kluster baru. Anda dapat menentukan skrip init dalam file ruang kerja (disarankan) atau melalui jalur DBFS (warisan). | No |
Layanan tertaut Azure SQL Database
Anda membuat layanan tertaut Azure SQL dan menggunakannya dengan Aktivitas Prosedur Tersimpan untuk menjalankan prosedur tersimpan dari alur. Lihat artikel Konektor Azure SQL untuk detail tentang layanan tertaut ini.
Layanan tertaut Azure Synapse Analytics
Anda membuat layanan tertaut Azure Synapse Analytics dan menggunakannya dengan Aktivitas Prosedur Tersimpan untuk memanggil prosedur yang disimpan dari alur. Lihat artikel Konektor Azure Synapse Analytics untuk detail tentang layanan tertaut ini.
Layanan tertaut SQL Server
Anda membuat layanan tertaut SQL Server dan menggunakannya dengan Aktivitas Prosedur Tersimpan untuk menjalankan prosedur tersimpan dari alur. Lihat artikel Konektor SQL Server untuk detail tentang layanan tertaut ini.
Layanan tertaut Azure Synapse Analytics (Artefak)
Anda membuat layanan tertaut Azure Synapse Analytics (Artefak) dan menggunakannya dengan Aktivitas Synapse Notebook dan Aktivitas definisi kerja Synapse Spark.
Contoh
{
"name": "AzureSynapseArtifacts",
"type": "Microsoft.DataFactory/factories/linkedservice",
"properties": {
"properties": {
"a":{
"type": "String"
}
},
"annotations": [],
"type": "AzureSynapseArtifacts",
"typeProperties": {
"endpoint": "@{linkedService().a}",
"authentication": "MSI",
"workspaceResourceId": ""
},
"ConnectVia":{
"referenceName": "integrationRuntime1",
"type": "IntergrationRuntimeReference"
}
}
}
Properti
Properti | Keterangan | Diperlukan |
---|---|---|
nama | Nama Layanan Tertaut | Ya |
description | deskripsi Layanan Tertaut | No |
anotasi | anotasi Layanan Tertaut | No |
jenis | Properti jenis harus diatur ke AzureSynapseArtifacts | Ya |
titik akhir | The Azure Synapse Analytics URL | Ya |
Autentikasi | Pengaturan defaultnya adalah Identitas Terkelola yang Ditetapkan Sistem | Ya |
workspaceResourceId | Id Sumber Daya ruang kerja | Ya |
connectVia | Runtime integrasi yang akan digunakan untuk menyambungkan ke penyimpanan data. Anda dapat menggunakan Azure Integration Runtime. Jika tidak ditentukan, Azure Integration Runtime default akan digunakan. Runtime integrasi yang dihost sendiri saat ini tidak didukung. | Ya |
Layanan tertaut Azure Function
Anda membuat layanan tertaut Azure Function dan menggunakannya dengan aktivitas Azure Function untuk menjalankan Azure Functions di alur. Jenis pengembalian fungsi Azure harus validJObject
. (Perlu diingat bahwa JArray bukan JObject
.) Jenis pengembalian selain JObject
gagal dan menaikkan Konten Respons kesalahan pengguna bukan JObject yang valid.
Properti | Keterangan | Diperlukan |
---|---|---|
jenis | Properti jenis harus diatur ke: AzureFunction | yes |
url aplikasi fungsi | URL untuk Aplikasi Azure Function. Format adalah https://<accountname>.azurewebsites.net . URL ini adalah nilai di bawah bagian URL saat menampilkan Aplikasi Fungsi Anda di portal Microsoft Azure |
yes |
tombol fungsi | Kunci akses untuk Azure Function. Klik pada bagian Kelola untuk fungsi masing-masing, dan salin Kunci Fungsi atau Kunci Host. Cari tahu selengkapnya di sini: Bekerja dengan kunci akses | yes |
Konten terkait
Untuk daftar aktivitas transformasi yang didukung, lihat Transformasi data.