Lingkungan komputasi yang didukung oleh Azure Data Factory dan alur Synapse

BERLAKU UNTUK:Azure Data Factory Azure Synapse Analytics

Tip

Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!

Penting

Dukungan untuk Azure Pembelajaran Mesin Studio (klasik) akan berakhir pada 31 Agustus 2024. Kami menyarankan agar Anda beralih ke Azure Pembelajaran Mesin pada tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak dapat membuat sumber daya Pembelajaran Mesin Studio (klasik) baru (ruang kerja dan paket layanan web). Hingga 31 Agustus 2024, Anda dapat terus menggunakan eksperimen dan layanan web Pembelajaran Mesin Studio (klasik) yang ada. Untuk informasi selengkapnya, lihat:

dokumentasi Pembelajaran Mesin Studio (klasik) sedang dihentikan dan mungkin tidak diperbarui di masa mendatang.

Artikel ini menjelaskan lingkungan komputasi yang berbeda yang dapat Anda gunakan untuk memproses atau mentransformasi data. Ini juga memberikan detail tentang konfigurasi yang berbeda (sesuai permintaan vs. bawa sendiri) yang didukung saat mengonfigurasi layanan tertaut yang menautkan lingkungan komputasi ini.

Tabel berikut menyediakan daftar lingkungan komputasi yang didukung dan aktivitas yang dapat berjalan di dalamnya.

Lingkungan komputasi Aktivitas
Kluster Microsoft Azure HDInsight sesuai permintaan atau kluster Microsoft Azure HDInsight Anda sendiri Apache Hive, Pig, Spark, MapReduce, Hadoop Streaming
Azure Batch Adat
ML Studio (klasik) ML Studio (classic) activities: Batch Execution dan Update Resource
Pembelajaran Mesin Azure Pembelajaran Mesin Microsoft Azure Jalankan Alur
Azure Data Lake Analytics Data Lake Analytics U-SQL
Azure SQL, Azure Synapse Analytics, SQL Server Prosedur Tersimpan
Azure Databricks Notebook, Jar, Python
Azure Synapse Analytics (Artefak) Aktivitas Synapse Notebook, definisi kerja Synapse Spark
Fungsi Azure Aktivitas Fungsi Azure

Lingkungan komputasi HDInsight

Lihat tabel di bawah ini untuk detail tentang jenis layanan penyimpanan tertaut yang didukung untuk konfigurasi di lingkungan Sesuai permintaan dan BYOC (Bawa komputasi Anda sendiri).

Dalam Layanan Komputasi Tertaut Nama Properti Deskripsi Blob ADLS Gen2 Azure SQL DB ADLS Gen 1
Sesuai permintaan linkedServiceName Layanan tertaut Azure Storage untuk digunakan oleh kluster sesuai permintaan untuk menyimpan dan memproses data. Ya Ya No Tidak
additionalLinkedServiceNames Menentukan akun penyimpanan tambahan untuk layanan tertaut HDInsight sehingga layanan dapat mendaftarkannya atas nama Anda. Ya No No Tidak
hcatalogLinkedServiceName Nama layanan tertaut Azure SQL yang menunjuk ke database HCatalog. Kluster HDInsight yang sesuai permintaan dibuat dengan menggunakan database Azure SQL sebagai metastore. Tidak No Ya Tidak
BYOC linkedServiceName Referensi layanan tertaut Azure Storage. Ya Ya No Tidak
additionalLinkedServiceNames Menentukan akun penyimpanan tambahan untuk layanan tertaut HDInsight sehingga layanan dapat mendaftarkannya atas nama Anda. Tidak No No Tidak
hcatalogLinkedServiceName Referensi ke layanan tertaut Azure SQL yang mengarah ke database HCatalog. Tidak No No Tidak

Layanan tertaut Azure HDInsight sesuai permintaan

Dalam jenis konfigurasi ini, lingkungan komputasi sepenuhnya dikelola oleh layanan. Layanan ini dibuat secara otomatis oleh layanan sebelum pekerjaan dikirimkan untuk memproses data dan dihapus ketika pekerjaan selesai. Anda dapat membuat layanan tertaut untuk lingkungan komputasi sesuai permintaan, mengonfigurasinya, dan mengontrol pengaturan granular untuk eksekusi pekerjaan, manajemen kluster, dan tindakan bootstrapping.

Catatan

Konfigurasi sesuai permintaan saat ini hanya didukung untuk kluster HDInsight. Azure Databricks juga mendukung pekerjaan sesuai permintaan menggunakan kluster pekerjaan. Untuk informasi selengkapnya, lihat Layanan tertaut databricks Azure.

Layanan ini dapat secara otomatis membuat kluster HDInsight sesuai permintaan untuk memproses data. Kluster ini dibuat di wilayah yang sama dengan akun penyimpanan (properti linkedServiceName di JSON) yang terkait dengan kluster. Akun penyimpanan must menjadi akun Azure Storage standar tujuan umum.

Perhatikan poin-poin penting berikut tentang layanan tertaut HDInsight sesuai permintaan:

  • Kluster HDInsight sesuai permintaan dibuat di bawah langganan Azure Anda. Anda dapat melihat kluster di portal Microsoft Azure saat kluster aktif dan berjalan.
  • Log untuk pekerjaan yang dijalankan pada kluster HDInsight sesuai permintaan disalin ke akun penyimpanan yang terkait dengan kluster HDInsight. ClusterUserName, clusterPassword, clusterSshUserName, clusterSshPassword yang didefinisikan dalam definisi layanan tertaut Anda digunakan untuk masuk ke kluster untuk pemecahan masalah mendalam selama siklus hidup kluster.
  • Anda hanya dikenakan biaya pada saat kluster HDInsight digunakan dan melakukan pekerjaan.
  • Anda dapat menggunakan Tindakan Skrip dengan layanan tertaut Azure HDInsight sesuai permintaan.

Penting

Biasanya dibutuhkan waktu 20 menit atau lebih untuk menyediakan kluster HDInsight sesuai permintaan.

Contoh

JSON berikut mendefinisikan layanan tertaut HDInsight sesuai permintaan berbasis Linux. Layanan secara otomatis membuat kluster HDInsight berbasis Linux untuk memproses aktivitas yang diperlukan.

{
  "name": "HDInsightOnDemandLinkedService",
  "properties": {
    "type": "HDInsightOnDemand",
    "typeProperties": {
      "clusterType": "hadoop",
      "clusterSize": 1,
      "timeToLive": "00:15:00",
      "hostSubscriptionId": "<subscription ID>",
      "servicePrincipalId": "<service principal ID>",
      "servicePrincipalKey": {
        "value": "<service principal key>",
        "type": "SecureString"
      },
      "tenant": "<tenent id>",
      "clusterResourceGroup": "<resource group name>",
      "version": "3.6",
      "osType": "Linux",
      "linkedServiceName": {
        "referenceName": "AzureStorageLinkedService",
        "type": "LinkedServiceReference"
      }
    },
    "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
  }
}

Penting

Kluster HDInsight membuat kontainer default di penyimpanan blob yang Anda tentukan di JSON (linkedServiceName). HDInsight tidak menghapus kontainer ini ketika kluster dihapus. Perilaku ini secara desain. Dengan layanan terhubung HDInsight sesuai permintaan, kluster HDInsight dibuat setiap kali potongan diproses kecuali terdapat kluster hidup yang ada (timeToLive) dan dihapus ketika pemrosesan selesai.

Saat lebih banyak aktivitas berjalan, Anda akan melihat banyak kontainer di penyimpanan blob Azure Anda. Jika Anda tidak memerlukannya untuk memecahkan masalah pekerjaan, Anda mungkin ingin menghapusnya untuk mengurangi biaya penyimpanan. Nama-nama kontainer ini mengikuti pola: adf**yourfactoryorworkspacename**-**linkedservicename**-datetimestamp. Gunakan alat seperti Microsoft Azure Storage Explorer untuk menghapus kontainer di penyimpanan blob Azure Anda.

Properti

Properti Deskripsi Wajib
jenis Properti jenis harus diatur ke HDInsightOnDemand. Ya
clusterSize Jumlah node pekerja/data di kluster. Kluster HDInsight dibuat dengan 2 node kepala bersama dengan jumlah node pekerja yang Anda tentukan untuk properti ini. Node berukuran Standard_D3 yang memiliki 4 inti, sehingga 4 kluster node pekerja menggunakan 24 inti (4*4 = 16 inti untuk node pekerja, ditambah 2*4 = 8 inti untuk node kepala). Lihat Menyiapkan kluster di HDInsight dengan Hadoop, Spark, Kafka, dan lainnya untuk selengkapnya. Ya
linkedServiceName Layanan tertaut Azure Storage untuk digunakan oleh kluster sesuai permintaan untuk menyimpan dan memproses data. Kluster HDInsight dibuat di wilayah yang sama dengan akun Azure Storage ini. Azure HDInsight memiliki batasan jumlah total inti yang dapat Anda gunakan di setiap wilayah Azure yang didukung. Pastikan Anda memiliki cukup kuota inti di wilayah Azure tersebut untuk memenuhi clusterSize yang diperlukan. Untuk informasi lengkapnya, lihat Menyiapkan kluster di HDInsight dengan Hadoop, Spark, Kafka, dan lainnya

Saat ini, Anda tidak dapat membuat kluster HDInsight sesuai permintaan yang menggunakan Azure Data Lake Storage (Gen 2) sebagai penyimpanan. Jika Anda ingin menyimpan data hasil dari pemrosesan HDInsight di Azure Data Lake Storage (Gen 2), gunakan Aktivitas Salin untuk menyalin data dari Azure Blob Storage ke Azure Data Lake Storage (Gen 2).

Ya
clusterResourceGroup Kluster HDInsight dibuat dalam grup sumber daya ini. Ya
timetolive Waktu diam yang diizinkan untuk kluster HDInsight sesuai permintaan. Menentukan berapa lama kluster HDInsight sesuai permintaan tetap hidup ketika aktivitas selesai, jika tidak ada pekerjaan aktif lainnya di kluster. Nilai minimal yang diperbolehkan adalah 5 menit (00:05:00).

Misalnya, jika aktivitas berjalan membutuhkan waktu 6 menit dan timetolive diatur ke 5 menit, kluster tetap hidup selama 5 menit setelah 6 menit pemrosesan aktivitas berjalan. Jika aktivitas lain dijalankan di jendela 6 menit, aktivitas akan diproses oleh kluster yang sama.

Membuat kluster HDInsight sesuai permintaan adalah operasi yang mahal (bisa memakan waktu cukup lama), jadi gunakan pengaturan ini sesuai kebutuhan untuk meningkatkan kinerja layanan dengan menggunakan kembali kluster HDInsight sesuai permintaan.

Jika Anda menetapkan nilai timetolive ke 0, kluster akan dihapus segera setelah aktivitas berjalan selesai. Sedangkan, jika Anda menetapkan nilai tinggi, kluster dapat tetap menganggur bagi Anda untuk masuk untuk beberapa tujuan pemecahan masalah tetapi dapat mengakibatkan biaya tinggi. Oleh karena itu, penting bagi Anda untuk menetapkan nilai yang sesuai berdasarkan kebutuhan Anda.

Jika nilai timetolive diatur dengan tepat, beberapa alur dapat membagikan instans kluster HDInsight sesuai permintaan.
Ya
clusterType Jenis kluster HDInsight yang akan dibuat. Nilai yang diizinkan adalah "hadoop" dan "spark". Jika tidak ditentukan, nilai defaultnya adalah hadoop. Kluster yang diaktifkan Paket Keamanan Perusahaan tidak dapat dibuat sesuai permintaan, sebagai gantinya gunakan kluster yang ada/bawa komputasi Anda sendiri. No
versi Versi kluster HDInsight. Jika tidak ditentukan, versi default yang ditentukan HDInsight saat ini akan digunakan. No
hostSubscriptionId ID langganan Azure digunakan untuk membuat kluster HDInsight. Jika tidak ditentukan, ID Langganan konteks masuk Azure Anda akan digunakan. No
clusterNamePrefix Awalan nama kluster HDI, tanda waktu secara otomatis ditambahkan di akhir nama kluster No
sparkVersion Versi spark jika jenis kluster adalah "Spark" No
additionalLinkedServiceNames Menentukan akun penyimpanan tambahan untuk layanan tertaut HDInsight sehingga layanan dapat mendaftarkannya atas nama Anda. Akun penyimpanan ini harus berada di wilayah yang sama dengan kluster HDInsight, yang dibuat di wilayah yang sama dengan akun penyimpanan yang ditentukan oleh linkedServiceName. No
osType Jenis sistem operasi. Nilai yang diizinkan adalah: Linux dan Windows (hanya untuk HDInsight 3.3). Defaultnya adalah Linux. No
hcatalogLinkedServiceName Nama layanan tertaut Azure SQL yang menunjuk ke database HCatalog. Kluster HDInsight sesuai permintaan dibuat dengan menggunakan Azure SQL Database sebagai metastore. No
connectVia Integration Runtime yang akan digunakan untuk mengirimkan aktivitas ke layanan tertaut HDInsight ini. Untuk layanan tertaut HDInsight sesuai permintaan, layanan ini hanya mendukung Azure Integration Runtime. Jika tidak ditentukan, Azure Integration Runtime default akan digunakan. No
clusterUserName Nama pengguna untuk mengakses kluster. No
clusterPassword Kata sandi dalam jenis untai (karakter) aman untuk mengakses kluster. No
clusterSshUserName Nama pengguna ke SSH terhubung dari jarak jauh ke node kluster (untuk Linux). No
clusterSshPassword Kata sandi dalam jenis string aman ke SSH menghubungkan node kluster dari jarak jauh (untuk Linux). No
scriptActions Tentukan skrip untuk kustomisasi kluster HDInsight selama pembuatan kluster sesuai permintaan.
Saat ini, alat penyusunan tulisan UI mendukung untuk menentukan hanya 1 tindakan skrip, tetapi Anda dapat melewati batasan ini di JSON (tentukan beberapa tindakan skrip di JSON).
No

Penting

HDInsight mendukung beberapa versi kluster Hadoop yang dapat disebarkan. Setiap pilihan versi membuat versi tertentu dari distribusi Hortonworks Data Platform (HDP) dan sekumpulan komponen yang terkandung dalam distribusi tersebut. Daftar versi HDInsight yang didukung terus diperbarui untuk menyediakan komponen dan perbaikan ekosistem Hadoop terbaru. Pastikan Anda selalu merujuk ke informasi terbaru Versi HDInsight yang didukung dan Jenis OS untuk memastikan Anda menggunakan versi HDInsight yang didukung.

Penting

Saat ini, layanan tertaut HDInsight tidak mendukung HBase, Interactive Query (Apache Hive LLAP), Storm.

  • contoh additionalLinkedServiceNames JSON
"additionalLinkedServiceNames": [{
    "referenceName": "MyStorageLinkedService2",
    "type": "LinkedServiceReference"          
}]

Autentikasi perwakilan layanan

Layanan tertaut HDInsight Sesuai Permintaan memerlukan autentikasi utama layanan untuk membuat kluster HDInsight atas nama Anda. Untuk menggunakan autentikasi perwakilan layanan, daftarkan entitas aplikasi di ID Microsoft Entra dan berikan peran Kontributor langganan atau grup sumber daya tempat kluster HDInsight dibuat. Untuk langkah-langkah mendetail, lihat Menggunakan portal untuk membuat aplikasi Microsoft Entra dan perwakilan layanan yang dapat mengakses sumber daya. Catat nilai berikut, yang Anda gunakan untuk menentukan layanan tertaut:

  • ID aplikasi
  • Kunci Aplikasi
  • ID Penyewa

Gunakan autentikasi perwakilan layanan dengan menentukan properti berikut:

Properti Deskripsi Wajib diisi
servicePrincipalId Menentukan ID klien aplikasi. Ya
servicePrincipalKey Tentukan kunci aplikasi. Ya
penyewa Tentukan informasi penyewa (nama domain atau ID penyewa) tempat aplikasi Anda berada. Anda dapat mengambilnya dengan mengarahkan mouse ke sudut kanan atas portal Microsoft Azure. Ya

Properti Tingkat Lanjut

Anda dapat menentukan properti berikut untuk konfigurasi terperinci dari kluster HDInsight sesuai permintaan.

Properti Deskripsi Wajib diisi
coreConfiguration Menentukan parameter konfigurasi inti (seperti di core-site.xml) agar kluster HDInsight dibuat. No
hBaseConfiguration Menentukan parameter konfigurasi HBase (hbase-site.xml) untuk kluster HDInsight. No
hdfsConfiguration Menentukan parameter konfigurasi HDFS (hdfs-site.xml) untuk kluster HDInsight. No
hiveConfiguration Menentukan parameter konfigurasi hive (hive-site.xml) untuk kluster HDInsight. No
mapReduceConfiguration Menentukan parameter konfigurasi MapReduce (mapreduce-site.xml) agar kluster HDInsight. No
oozieConfiguration Menentukan parameter konfigurasi Oozie (oozie-site.xml) untuk kluster HDInsight. No
stormConfiguration Menentukan parameter konfigurasi Storm (storm-site.xml) untuk kluster HDInsight. No
yarnConfiguration Menentukan parameter konfigurasi Yarn (yarn-site.xml) untuk kluster HDInsight. No
  • Contoh - Konfigurasi kluster HDInsight sesuai permintaan dengan properti tingkat lanjut
{
    "name": " HDInsightOnDemandLinkedService",
    "properties": {
      "type": "HDInsightOnDemand",
      "typeProperties": {
          "clusterSize": 16,
          "timeToLive": "01:30:00",
          "hostSubscriptionId": "<subscription ID>",
          "servicePrincipalId": "<service principal ID>",
          "servicePrincipalKey": {
            "value": "<service principal key>",
            "type": "SecureString"
          },
          "tenant": "<tenent id>",
          "clusterResourceGroup": "<resource group name>",
          "version": "3.6",
          "osType": "Linux",
          "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
            },
            "coreConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "hiveConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "mapReduceConfiguration": {
                "mapreduce.reduce.java.opts": "-Xmx4000m",
                "mapreduce.map.java.opts": "-Xmx4000m",
                "mapreduce.map.memory.mb": "5000",
                "mapreduce.reduce.memory.mb": "5000",
                "mapreduce.job.reduce.slowstart.completedmaps": "0.8"
            },
            "yarnConfiguration": {
                "yarn.app.mapreduce.am.resource.mb": "5000",
                "mapreduce.map.memory.mb": "5000"
            },
            "additionalLinkedServiceNames": [{
                "referenceName": "MyStorageLinkedService2",
                "type": "LinkedServiceReference"          
            }]
        }
    },
      "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
}

Ukuran node

Anda dapat menentukan ukuran node kepala, data, dan ZooKeeper menggunakan properti berikut:

Properti Deskripsi Wajib diisi
headNodeSize Menentukan ukuran node kepala. Nilai defaultnya adalah: Standard_D3. Lihat Menentukan ukuran node untuk selengkapnya. No
dataNodeSize Menentukan ukuran node data. Nilai defaultnya adalah: Standard_D3. No
zookeeperNodeSize Menentukan ukuran node Zoo Keeper. Nilai defaultnya adalah: Standard_D3. No
  • Menentukan ukuran node Lihat artikel Ukuran Virtual Machines untuk nilai untai (karakter) yang perlu Anda tentukan untuk properti yang disebutkan di bagian sebelumnya. Nilai harus sesuai dengan CMDLET & APIS yang direferensikan dalam artikel. Seperti yang Anda lihat dalam artikel, simpul data ukuran Besar (default) memiliki memori 7 GB, yang mungkin tidak cukup baik untuk skenario Anda.

Jika Anda ingin membuat node kepala dan node pekerja berukuran D4, tentukan Standard_D4 sebagai nilai untuk properti headNodeSize dan dataNodeSize.

"headNodeSize": "Standard_D4",    
"dataNodeSize": "Standard_D4",

Jika Anda menentukan nilai yang salah untuk properti ini, Anda mungkin menerima kesalahan berikut : Gagal membuat kluster. Pengecualian: Tidak dapat menyelesaikan operasi pembuatan kluster. Operasi gagal dengan kode '400'. Kluster meninggalkan status: 'Kesalahan'. Pesan: 'PreClusterCreationValidationFailure'. Saat Anda menerima kesalahan ini, pastikan Anda menggunakan CMDLET & nama APIS dari tabel di artikel Ukuran Virtual Machines.

Bawa lingkungan komputasi Anda sendiri

Dalam jenis konfigurasi ini, pengguna dapat mendaftarkan lingkungan komputasi yang sudah ada sebagai layanan tertaut di Data Factory. Lingkungan komputasi ini dikelola oleh Anda dan layanan menggunakannya untuk menjalankan aktivitas.

Tipe konfigurasi ini didukung untuk lingkungan komputasi berikut:

  • Azure HDInsight
  • Azure Batch
  • Pembelajaran Mesin Azure
  • Azure Data Lake Analytics
  • Azure SQL, Azure Synapse Analytics, SQL Server

Membuat layanan tertaut Azure HDInsight

Anda dapat membuat layanan tertaut Azure HDInsight untuk mendaftarkan kluster HDInsight Anda sendiri dengan pabrik data atau ruang kerja Synapse.

Contoh

{
    "name": "HDInsightLinkedService",
    "properties": {
      "type": "HDInsight",
      "typeProperties": {
        "clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
        "userName": "username",
        "password": {
            "value": "passwordvalue",
            "type": "SecureString"
          },
        "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Properti

Properti Deskripsi Wajib
jenis Properti jenis harus diatur ke HDInsight. Ya
clusterUri URI dari kluster HDInsight. Ya
Nama pengguna Tentukan nama akun pengguna yang digunakan untuk menyambungkan ke kluster HDInsight yang ada. Ya
kata sandi Tentukan kata sandi untuk akun pengguna. Ya
linkedServiceName Nama layanan tertaut Microsoft Azure Storage yang mengacu pada penyimpanan blob Azure yang digunakan oleh kluster HDInsight.

Saat ini, Anda tidak dapat menentukan layanan tertaut Azure Data Lake Storage (Gen 2) untuk properti ini. Jika kluster HDInsight memiliki akses ke Data Lake Store, Anda dapat mengakses data di Azure Data Lake Storage (Gen 2) dari skrip Apache Hive/Pig.

Ya
isEspEnabled Tentukan 'benar' jika kluster HDInsight adalah Paket Keamanan Perusahaanyang diaktifkan. Default adalah ‘salah’. No
connectVia Integration Runtime yang akan digunakan untuk mengirimkan aktivitas ke layanan tertaut ini. Anda dapat menggunakan Azure Integration Runtime atau Self-hosted Integration Runtime. Jika tidak ditentukan, Azure Integration Runtime default akan digunakan.
Untuk kluster HDInsight yang mengaktifkan Paket Keamanan Perusahaan (ESP) dan menggunakan runtime integrasi yang dihost sendiri, yang memiliki garis pandang ke kluster atau harus disebarkan di dalam Virtual Network yang sama dengan kluster ESP HDInsight.
No

Penting

HDInsight mendukung beberapa versi kluster Hadoop yang dapat disebarkan. Setiap pilihan versi membuat versi tertentu dari distribusi Hortonworks Data Platform (HDP) dan sekumpulan komponen yang terkandung dalam distribusi tersebut. Daftar versi HDInsight yang didukung terus diperbarui untuk menyediakan komponen dan perbaikan ekosistem Hadoop terbaru. Pastikan Anda selalu merujuk ke informasi terbaru Versi HDInsight yang didukung dan Jenis OS untuk memastikan Anda menggunakan versi HDInsight yang didukung.

Penting

Saat ini, layanan tertaut HDInsight tidak mendukung HBase, Interactive Query (Apache Hive LLAP), Storm.

Membuat layanan tertaut Azure Batch

Catatan

Sebaiknya Anda menggunakan modul Azure Az PowerShell untuk berinteraksi dengan Azure. Lihat Menginstal Azure PowerShell untuk memulai. Untuk mempelajari cara bermigrasi ke modul Az PowerShell, lihat Memigrasikan Azure PowerShell dari AzureRM ke Az.

Anda dapat membuat layanan tertaut Azure Batch untuk mendaftarkan kumpulan Batch komputer virtual (VM) ke data atau ruang kerja Synapse. Anda dapat menjalankan aktivitas Kustom menggunakan Azure Batch.

Lihat artikel berikut ini jika Anda baru menggunakan layanan Azure Batch:

Penting

Saat membuat kumpulan Azure Batch baru, 'VirtualMachineConfiguration' harus digunakan dan BUKAN 'CloudServiceConfiguration'. Untuk detail selengkapnya lihat panduan migrasi Azure Batch Pool.

Contoh

{
    "name": "AzureBatchLinkedService",
    "properties": {
      "type": "AzureBatch",
      "typeProperties": {
        "accountName": "batchaccount",
        "accessKey": {
          "type": "SecureString",
          "value": "access key"
        },
        "batchUri": "https://batchaccount.region.batch.azure.com",
        "poolName": "poolname",
        "linkedServiceName": {
          "referenceName": "StorageLinkedService",
          "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Properti

Properti Deskripsi Wajib
jenis Properti jenis harus diatur ke AzureBatch. Ya
accountName Nama akun Azure Batch. Ya
accessKey Kunci akses untuk akun Azure Batch. Ya
batchUri URL ke akun Azure Batch Anda, dalam format https://batchaccountname.region.batch.azure.com. Ya
poolName Nama kumpulan komputer virtual. Ya
linkedServiceName Nama layanan tertaut Microsoft Azure Storage yang terkait dengan layanan tertaut Microsoft Azure Batch ini. Layanan tertaut ini digunakan untuk file pembuat tahapan yang diperlukan untuk menjalankan aktivitas. Ya
connectVia Integration Runtime yang akan digunakan untuk mengirimkan aktivitas ke layanan tertaut ini. Anda dapat menggunakan Azure Integration Runtime atau Self-hosted Integration Runtime. Jika tidak ditentukan, Azure Integration Runtime default akan digunakan. No

Layanan tertaut Azure Machine Learning Studio (klasik)

Penting

Dukungan untuk Azure Pembelajaran Mesin Studio (klasik) akan berakhir pada 31 Agustus 2024. Kami menyarankan agar Anda beralih ke Azure Pembelajaran Mesin pada tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak dapat membuat sumber daya Pembelajaran Mesin Studio (klasik) baru (ruang kerja dan paket layanan web). Hingga 31 Agustus 2024, Anda dapat terus menggunakan eksperimen dan layanan web Pembelajaran Mesin Studio (klasik) yang ada. Untuk informasi selengkapnya, lihat:

dokumentasi Pembelajaran Mesin Studio (klasik) sedang dihentikan dan mungkin tidak diperbarui di masa mendatang.

Anda membuat layanan tertaut Pembelajaran Mesin Studio (klasik) untuk mendaftarkan titik akhir penilaian batch Pembelajaran Mesin Studio (klasik) ke pabrik data atau ruang kerja Synapse.

Contoh

{
    "name": "AzureMLLinkedService",
    "properties": {
      "type": "AzureML",
      "typeProperties": {
        "mlEndpoint": "https://[batch scoring endpoint]/jobs",
        "apiKey": {
            "type": "SecureString",
            "value": "access key"
        }
     },
     "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
}

Properti

Properti Deskripsi Wajib
Tipe Properti jenis harus diatur ke: AzureML. Ya
mlEndpoint URL penilaian batch. Ya
apiKey API model ruang kerja yang dipublikasikan. Ya
updateResourceEndpoint URL Sumber Daya Pembaruan untuk titik akhir Layanan Web ML Studio (klasik) yang digunakan untuk memperbarui Layanan Web prediktif dengan file model terlatih No
servicePrincipalId Menentukan ID klien aplikasi. Diperlukan jika updateResourceEndpoint ditentukan
servicePrincipalKey Tentukan kunci aplikasi. Diperlukan jika updateResourceEndpoint ditentukan
penyewa Tentukan informasi penyewa (nama domain atau ID penyewa) tempat aplikasi Anda berada. Anda dapat mengambilnya dengan mengarahkan mouse ke sudut kanan atas portal Microsoft Azure. Diperlukan jika updateResourceEndpoint ditentukan
connectVia Integration Runtime yang akan digunakan untuk mengirimkan aktivitas ke layanan tertaut ini. Anda dapat menggunakan Azure Integration Runtime atau Self-hosted Integration Runtime. Jika tidak ditentukan, Azure Integration Runtime default akan digunakan. No

Layanan tertaut Azure Machine Learning

Anda membuat layanan tertaut Azure Machine Learning untuk menyambungkan ruang kerja Azure Machine Learning ke pabrik data atau ruang kerja Synapse.

Catatan

Saat ini hanya autentikasi utama layanan yang didukung untuk layanan tertaut Azure Machine Learning.

Contoh

{
    "name": "AzureMLServiceLinkedService",
    "properties": {
        "type": "AzureMLService",
        "typeProperties": {
            "subscriptionId": "subscriptionId",
            "resourceGroupName": "resourceGroupName",
            "mlWorkspaceName": "mlWorkspaceName",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime?",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Properti

Properti Deskripsi Wajib
Tipe Properti jenis harus diatur ke: AzureMLService. Ya
subscriptionId ID langganan Azure Ya
resourceGroupName nama Ya
mlWorkspaceName Nama ruang kerja Azure Machine Learning Ya
servicePrincipalId Menentukan ID klien aplikasi. Ya
servicePrincipalKey Tentukan kunci aplikasi. Ya
penyewa Tentukan informasi penyewa (nama domain atau ID penyewa) tempat aplikasi Anda berada. Anda dapat mengambilnya dengan mengarahkan mouse ke sudut kanan atas portal Microsoft Azure. Diperlukan jika updateResourceEndpoint ditentukan
connectVia Integration Runtime yang akan digunakan untuk mengirimkan aktivitas ke layanan tertaut ini. Anda dapat menggunakan Azure Integration Runtime atau Self-hosted Integration Runtime. Jika tidak ditentukan, Azure Integration Runtime default akan digunakan. No

Layanan tertaut Azure Data Lake Analytics

Anda membuat layanan tertaut Azure Data Lake Analytics untuk menautkan layanan komputasi Azure Data Lake Analytics ke pabrik data atau ruang kerja Synapse. Aktivitas Data Lake Analytics U-SQL dalam alur mengacu pada layanan tertaut ini.

Contoh

{
    "name": "AzureDataLakeAnalyticsLinkedService",
    "properties": {
        "type": "AzureDataLakeAnalytics",
        "typeProperties": {
            "accountName": "adftestaccount",
            "dataLakeAnalyticsUri": "azuredatalakeanalytics URI",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID",
            "subscriptionId": "<optional, subscription ID of ADLA>",
            "resourceGroupName": "<optional, resource group name of ADLA>"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Properti

Properti Deskripsi Wajib
jenis Properti jenis harus diatur ke: AzureDataLakeAnalytics. Ya
accountName Nama Akun Azure Data Lake Analytics. Ya
dataLakeAnalyticsUri URI Azure Data Lake Analytics. No
subscriptionId ID langganan Azure No
resourceGroupName Nama grup sumber daya Azure No
servicePrincipalId Menentukan ID klien aplikasi. Ya
servicePrincipalKey Tentukan kunci aplikasi. Ya
penyewa Tentukan informasi penyewa (nama domain atau ID penyewa) tempat aplikasi Anda berada. Anda dapat mengambilnya dengan mengarahkan mouse ke sudut kanan atas portal Microsoft Azure. Ya
connectVia Integration Runtime yang akan digunakan untuk mengirimkan aktivitas ke layanan tertaut ini. Anda dapat menggunakan Azure Integration Runtime atau Self-hosted Integration Runtime. Jika tidak ditentukan, Azure Integration Runtime default akan digunakan. No

Layanan Tertaut Azure Databricks

Anda dapat membuat layanan tertaut Azure Databricks untuk mendaftarkan ruang kerja Databricks yang Anda gunakan untuk menjalankan beban kerja Databricks (notebook, jar, python).

Penting

Layanan tertaut Databricks mendukung Kumpulan instans & Autentikasi identitas terkelola yang ditetapkan sistem.

Contoh - Menggunakan kluster pekerjaan baru di Databricks

{
    "name": "AzureDatabricks_LS",
    "properties": {
        "type": "AzureDatabricks",
        "typeProperties": {
            "domain": "https://eastus.azuredatabricks.net",
            "newClusterNodeType": "Standard_D3_v2",
            "newClusterNumOfWorker": "1:10",
            "newClusterVersion": "4.0.x-scala2.11",
            "accessToken": {
                "type": "SecureString",
                "value": "dapif33c9c721144c3a790b35000b57f7124f"
            }
        }
    }
}

Contoh - Menggunakan kluster Interaktif yang ada di Databricks

{
    "name": " AzureDataBricksLinedService",
    "properties": {
      "type": " AzureDatabricks",
      "typeProperties": {
        "domain": "https://westeurope.azuredatabricks.net",
        "accessToken": {
            "type": "SecureString", 
            "value": "dapif33c9c72344c3a790b35000b57f7124f"
          },
        "existingClusterId": "{clusterId}"
        }
}

Properti

Properti Deskripsi Wajib
nama Nama Layanan Tertaut Ya
jenis Properti jenis harus diatur ke: Azure Databricks. Ya
domain Tentukan Wilayah Azure yang sesuai berdasarkan wilayah ruang kerja Databricks. Contoh: https://eastus.azuredatabricks.net Ya
accessToken Token akses diperlukan agar layanan dapat mengautentikasi ke Azure Databricks. Token akses perlu dihasilkan dari ruang kerja databricks. Langkah-langkah detail selengkapnya untuk menemukan token akses dapat ditemukan di sini No
MSI Gunakan identitas terkelola layanan (berbasis sistem) untuk mengautentikasi ke Azure Databricks. Anda tidak memerlukan Token Akses saat menggunakan autentikasi 'MSI'. Detail selengkapnya tentang autentikasi Identitas Terkelola dapat ditemukan di sini No
existingClusterId ID kluster dari kluster yang ada untuk menjalankan semua pekerjaan ini. ID kluster Ini harus menjadi Kluster Interaktif yang sudah dibuat. Anda mungkin perlu menghidupkan ulang kluster secara manual jika kluster berhenti merespons. Databricks menyarankan untuk menjalankan pekerjaan pada kluster baru untuk keandalan yang lebih besar. Anda dapat menemukan ID Kluster dari Kluster Interaktif di ruang kerja Databricks -> Kluster -> Nama Kluster Interaktif -> Konfigurasi -> Tag. Detail Selengkapnya No
instancePoolId ID Kumpulan Instans dari kumpulan yang ada di ruang kerja databricks. No
newClusterVersion Versi Spark dari kluster. Versi Ini menciptakan kluster pekerjaan dalam databricks. No
newClusterNumOfWorker Jumlah node pekerja yang seharusnya dimiliki oleh kluster ini. Kluster memiliki satu Spark Driver dan num_workers Executors dengan total num_workers + 1 node Spark. String yang diformat Int32, seperti "1" berarti numOfWorker adalah 1 atau "1:10" berarti penskalaan otomatis dari 1 sebagai min dan 10 sebagai maks. No
newClusterNodeType Bidang ini mengkodekan, melalui satu nilai, sumber daya yang tersedia untuk masing-masing node Spark di kluster ini. Misalnya, node Spark dapat disediakan dan dioptimalkan untuk beban kerja intensif memori atau komputasi. Bidang ini diperlukan untuk kluster baru No
newClusterSparkConf sekumpulan pasangan kunci nilai konfigurasi Spark opsional yang ditentukan pengguna. Pengguna juga dapat meneruskan serangkaian opsi JVM tambahan ke driver dan pelaksana melalui spark.driver.extraJavaOptions dan spark.executor.extraJavaOptions masing-masing. No
newClusterInitScripts sekumpulan skrip inisialisasi opsional yang ditentukan pengguna untuk kluster baru. Anda dapat menentukan skrip init dalam file ruang kerja (disarankan) atau melalui jalur DBFS (warisan). No

Layanan tertaut Azure SQL Database

Anda membuat layanan tertaut Azure SQL dan menggunakannya dengan Aktivitas Prosedur Tersimpan untuk menjalankan prosedur tersimpan dari alur. Lihat artikel Konektor Azure SQL untuk detail tentang layanan tertaut ini.

Layanan tertaut Azure Synapse Analytics

Anda membuat layanan tertaut Azure Synapse Analytics dan menggunakannya dengan Aktivitas Prosedur Tersimpan untuk memanggil prosedur yang disimpan dari alur. Lihat artikel Konektor Azure Synapse Analytics untuk detail tentang layanan tertaut ini.

Layanan tertaut SQL Server

Anda membuat layanan tertaut SQL Server dan menggunakannya dengan Aktivitas Prosedur Tersimpan untuk menjalankan prosedur tersimpan dari alur. Lihat artikel Konektor SQL Server untuk detail tentang layanan tertaut ini.

Layanan tertaut Azure Synapse Analytics (Artefak)

Anda membuat layanan tertaut Azure Synapse Analytics (Artefak) dan menggunakannya dengan Aktivitas Synapse Notebook dan Aktivitas definisi kerja Synapse Spark.

Contoh

{
    "name": "AzureSynapseArtifacts",
    "type": "Microsoft.DataFactory/factories/linkedservice",
    "properties": {
      "properties": {
        "a":{
          "type": "String"
        }
      },
        "annotations": [],
        "type": "AzureSynapseArtifacts",
        "typeProperties": {
            "endpoint": "@{linkedService().a}",
            "authentication": "MSI",
            "workspaceResourceId": ""
        },
        "ConnectVia":{
          "referenceName": "integrationRuntime1",
          "type": "IntergrationRuntimeReference"
        }
    }
}

Properti

Properti Keterangan Diperlukan
nama Nama Layanan Tertaut Ya
description deskripsi Layanan Tertaut No
anotasi anotasi Layanan Tertaut No
jenis Properti jenis harus diatur ke AzureSynapseArtifacts Ya
titik akhir The Azure Synapse Analytics URL Ya
Autentikasi Pengaturan defaultnya adalah Identitas Terkelola yang Ditetapkan Sistem Ya
workspaceResourceId Id Sumber Daya ruang kerja Ya
connectVia Runtime integrasi yang akan digunakan untuk menyambungkan ke penyimpanan data. Anda dapat menggunakan Azure Integration Runtime. Jika tidak ditentukan, Azure Integration Runtime default akan digunakan. Runtime integrasi yang dihost sendiri saat ini tidak didukung. Ya

Layanan tertaut Azure Function

Anda membuat layanan tertaut Azure Function dan menggunakannya dengan aktivitas Azure Function untuk menjalankan Azure Functions di alur. Jenis pengembalian fungsi Azure harus validJObject. (Perlu diingat bahwa JArraybukanJObject.) Jenis pengembalian selain JObject gagal dan menaikkan Konten Respons kesalahan pengguna bukan JObject yang valid.

Properti Keterangan Diperlukan
jenis Properti jenis harus diatur ke: AzureFunction yes
url aplikasi fungsi URL untuk Aplikasi Azure Function. Format adalah https://<accountname>.azurewebsites.net. URL ini adalah nilai di bawah bagian URL saat menampilkan Aplikasi Fungsi Anda di portal Microsoft Azure yes
tombol fungsi Kunci akses untuk Azure Function. Klik pada bagian Kelola untuk fungsi masing-masing, dan salin Kunci Fungsi atau Kunci Host. Untuk mempelajari selengkapnya, lihat Pemicu dan pengikatan HTTP Azure Functions yes

Untuk daftar aktivitas transformasi yang didukung, lihat Transformasi data.