Tutorial: Menyiapkan batch produk data
Dalam tutorial ini, pelajari cara menyiapkan layanan produk data yang sudah disebarkan. Gunakan Azure Data Factory untuk mengintegrasikan dan mengatur data Anda, dan menggunakan Microsoft Purview untuk menemukan, mengelola, dan mengatur aset data.
Pelajari cara:
- Membuat dan menyebarkan sumber daya yang diperlukan
- Menetapkan peran dan izin akses
- Koneksi sumber daya untuk integrasi data
Tutorial ini membantu Anda terbiasa dengan layanan yang disebarkan dalam <DMLZ-prefix>-dev-dp001
grup sumber daya produk data sampel. Rasakan bagaimana antarmuka layanan Azure satu sama lain dan langkah-langkah keamanan apa yang berlaku.
Saat menyebarkan komponen baru, Anda akan memiliki kesempatan untuk menyelidiki bagaimana Purview menghubungkan tata kelola layanan untuk membuat peta lanskap data Anda yang holistik dan terbaru. Hasilnya adalah penemuan data otomatis, klasifikasi data sensitif, dan silsilah data end-to-end.
Prasyarat
Sebelum Anda mulai menyiapkan batch produk data, pastikan Anda memenuhi prasyarat ini:
Langganan Azure. Jika Anda tidak memiliki langganan Azure, buat akun gratis Azure Anda hari ini.
Izin ke langganan Azure. Untuk menyiapkan Purview dan Azure Synapse Analytics untuk penyebaran, Anda harus memiliki peran Administrator Akses Pengguna atau peran Pemilik dalam langganan Azure. Anda akan mengatur lebih banyak penetapan peran untuk layanan dan perwakilan layanan dalam tutorial.
Sumber daya yang disebarkan. Untuk menyelesaikan tutorial, sumber daya ini harus sudah disebarkan di langganan Azure Anda:
- Zona pendaratan manajemen data. Untuk informasi selengkapnya, lihat repositori GitHub zona pendaratan manajemen data.
- Zona pendaratan data. Untuk informasi selengkapnya, lihat repositori GitHub zona pendaratan data.
- Batch produk data. Untuk informasi selengkapnya, lihat repositori GitHub batch produk data.
Akun Microsoft Purview. Akun dibuat sebagai bagian dari penyebaran zona pendaratan manajemen data Anda.
Rutime integrasi yang dihost sendiri. Runtime dibuat sebagai bagian dari penyebaran zona pendaratan data Anda.
Catatan
Dalam tutorial ini, tempat penampung merujuk ke sumber daya prasyarat yang Anda sebarkan sebelum memulai tutorial:
<DMLZ-prefix>
mengacu pada awalan yang Anda masukkan saat membuat penyebaran zona pendaratan manajemen data Anda.<DLZ-prefix>
mengacu pada awalan yang Anda masukkan saat membuat penyebaran zona pendaratan data Anda.<DP-prefix>
mengacu pada awalan yang Anda masukkan saat membuat penyebaran batch produk data Anda.
Membuat instans Azure SQL Database
Untuk memulai tutorial ini, buat dua contoh instans SQL Database. Anda akan menggunakan database untuk mensimulasikan sumber data CRM dan ERP di bagian selanjutnya.
Di portal Azure, di kontrol global portal, pilih ikon Cloud Shell untuk membuka terminal Azure Cloud Shell. Pilih Bash untuk jenis terminal.
Di Cloud Shell, jalankan skrip berikut. Skrip menemukan
<DLZ-prefix>-dev-dp001
grup sumber daya dan<DP-prefix>-dev-sqlserver001
server Azure SQL yang ada di grup sumber daya. Kemudian, skrip membuat dua instans SQL Database di<DP-prefix>-dev-sqlserver001
server. Database telah diisi sebelumnya dengan data sampel AdventureWorks. Data mencakup tabel yang Anda gunakan dalam tutorial ini.Pastikan Anda mengganti
subscription
nilai tempat penampung parameter dengan ID langganan Azure Anda sendiri.# Azure SQL Database instances setup # Create the AdatumCRM and AdatumERP databases to simulate customer and sales data. # Use the ID for the Azure subscription you used to deployed the data product. az account set --subscription "<your-subscription-ID>" # Get the resource group for the data product. resourceGroupName=$(az group list -o tsv --query "[?contains(@.name, 'dp001')==\`true\`].name") # Get the existing Azure SQL Database server name. sqlServerName=$(az sql server list -g $resourceGroupName -o tsv --query "[?contains(@.name, 'sqlserver001')==\`true\`].name") # Create the first SQL Database instance, AdatumCRM, to create the customer's data source. az sql db create --resource-group $resourceGroupName --server $sqlServerName --name AdatumCRM --service-objective Basic --sample-name AdventureWorksLT # Create the second SQL Database instance, AdatumERP, to create the sales data source. az sql db create --resource-group $resourceGroupName --server $sqlServerName --name AdatumERP --service-objective Basic --sample-name AdventureWorksLT
Setelah skrip selesai berjalan, di <DP-prefix>-dev-sqlserver001
server Azure SQL, Anda memiliki dua instans SQL Database baru, AdatumCRM
dan AdatumERP
. Kedua database berada di tingkat komputasi Dasar. Database terletak di grup sumber daya yang sama dengan yang <DLZ-prefix>-dev-dp001
Anda gunakan untuk menyebarkan batch produk data.
Menyiapkan Purview untuk membuat katalog batch produk data
Selanjutnya, selesaikan langkah-langkah untuk menyiapkan Purview untuk membuat katalog batch produk data. Anda mulai dengan membuat perwakilan layanan. Kemudian, Anda menyiapkan sumber daya yang diperlukan dan menetapkan peran dan izin akses.
Membuat perwakilan layanan
Di portal Azure, di kontrol global portal, pilih ikon Cloud Shell untuk membuka terminal Azure Cloud Shell. Pilih Bash untuk jenis terminal.
Revisi skrip berikut:
subscriptionId
Ganti nilai tempat penampung parameter dengan ID langganan Azure Anda sendiri.spname
Ganti nilai tempat penampung parameter dengan nama yang ingin Anda gunakan untuk perwakilan layanan Anda. Nama perwakilan layanan harus unik dalam langganan.
Setelah Anda memperbarui nilai parameter, jalankan skrip di Cloud Shell.
# Replace the parameter values with the name you want to use for your service principal name and your Azure subscription ID. spname="<your-service-principal-name>" subscriptionId="<your-subscription-id>" # Set the scope to the subscription. scope="/subscriptions/$subscriptionId" # Create the service principal. az ad sp create-for-rbac \ --name $spname \ --role "Contributor" \ --scope $scope
Periksa output JSON untuk hasil yang mirip dengan contoh berikut. Perhatikan atau salin nilai dalam output yang akan digunakan di langkah selanjutnya.
{ "appId": "<your-app-id>", "displayName": "<service-principal-display-name>", "name": "<your-service-principal-name>", "password": "<your-service-principal-password>", "tenant": "<your-tenant>" }
Menyiapkan akses dan izin perwakilan layanan
Dari output JSON yang dihasilkan pada langkah sebelumnya, dapatkan nilai yang dikembalikan berikut:
- ID perwakilan layanan (
appId
) - kunci perwakilan layanan (
password
)
Perwakilan layanan harus memiliki izin berikut:
- Peran Pembaca Data Blob Penyimpanan pada akun penyimpanan.
- Izin Pembaca Data pada instans SQL Database.
Untuk menyiapkan perwakilan layanan dengan peran dan izin yang diperlukan, selesaikan langkah-langkah berikut.
Izin akun Azure Storage
Di portal Azure, buka
<DLZ-prefix>devraw
akun Azure Storage. Di menu sumber daya, pilih Kontrol Akses (IAM).Pilih Tambahkan Tambahkan>penetapan peran.
Di Tambahkan penetapan peran, pada tab Peran , cari dan pilih Pembaca Data Blob Penyimpanan. Kemudian, pilih Berikutnya.
Di Anggota, pilih Pilih anggota.
Di Pilih anggota, cari nama perwakilan layanan yang Anda buat.
Di hasil pencarian, pilih perwakilan layanan, lalu pilih Pilih.
Untuk menyelesaikan penetapan peran, pilih Tinjau + tetapkan dua kali.
Ulangi langkah-langkah di bagian ini untuk akun penyimpanan yang tersisa:
<DLZ-prefix>devencur
<DLZ-prefix>devwork
Izin SQL Database
Untuk mengatur izin SQL Database, Anda menyambungkan ke komputer virtual Azure SQL dengan menggunakan editor kueri. Karena semua sumber daya berada di belakang titik akhir privat, Anda harus terlebih dahulu masuk ke portal Azure dengan menggunakan komputer virtual host Azure Bastion.
Di portal Azure, sambungkan ke komputer virtual yang disebarkan dalam <DMLZ-prefix>-dev-bastion
grup sumber daya. Jika Anda tidak yakin cara menyambungkan ke komputer virtual dengan menggunakan layanan host Bastion, lihat Koneksi ke VM.
Untuk menambahkan perwakilan layanan sebagai pengguna dalam database, Anda mungkin perlu terlebih dahulu menambahkan diri Anda sebagai admin Microsoft Entra. Di langkah 1 dan 2, Anda menambahkan diri Anda sebagai admin Microsoft Entra. Dalam langkah 3 hingga 5, Anda memberikan izin perwakilan layanan ke database. Saat Anda masuk ke portal dari komputer virtual host Bastion, cari komputer virtual Azure SQL di portal Azure.
Buka komputer
<DP-prefix>-dev-sqlserver001
virtual Azure SQL. Di menu sumber daya di bawah Pengaturan, pilih ID Microsoft Entra.Di bilah perintah, pilih Atur admin. Cari dan pilih akun Anda sendiri. Memilih Pilih.
Di menu sumber daya, pilih database SQL, lalu pilih
AdatumCRM
database.Di menu sumber daya AdatumCRM, pilih Editor kueri (pratinjau). Di bawah Autentikasi Direktori Aktif, pilih tombol Lanjutkan sebagai untuk masuk.
Di editor kueri, revisi pernyataan berikut untuk mengganti
<service principal name>
dengan nama perwakilan layanan yang Anda buat (misalnya,purview-service-principal
). Kemudian, jalankan pernyataan.CREATE USER [<service principal name>] FROM EXTERNAL PROVIDER GO EXEC sp_addrolemember 'db_datareader', [<service principal name>] GO
Ulangi langkah 3 hingga 5 untuk AdatumERP
database.
Menyiapkan brankas kunci
Purview membaca kunci perwakilan layanan dari instans Azure Key Vault. Brankas kunci dibuat dalam penyebaran zona pendaratan manajemen data Anda. Langkah-langkah berikut diperlukan untuk menyiapkan brankas kunci:
Tambahkan kunci perwakilan layanan ke brankas kunci sebagai rahasia.
Berikan izin Pembaca Rahasia MSI Purview di brankas kunci.
Tambahkan brankas kunci ke Purview sebagai koneksi brankas kunci.
Buat kredensial di Purview yang menunjuk ke rahasia brankas kunci.
Menambahkan izin untuk menambahkan rahasia ke brankas kunci
Di portal Azure, buka layanan Azure Key Vault. Cari brankas
<DMLZ-prefix>-dev-vault001
kunci.Di menu sumber daya, pilih Kontrol akses (IAM). Di bilah perintah, pilih Tambahkan, lalu pilih Tambahkan penetapan peran.
Pada tab Peran , cari lalu pilih Administrator Key Vault. Pilih Selanjutnya.
Di Anggota, pilih Pilih anggota untuk menambahkan akun yang saat ini masuk.
Di Pilih anggota, cari akun yang saat ini masuk. Pilih akun, lalu pilih Pilih.
Untuk menyelesaikan proses penetapan peran, pilih Tinjau + tetapkan dua kali.
Menambahkan rahasia ke brankas kunci
Selesaikan langkah-langkah berikut untuk masuk ke portal Azure dari komputer virtual host Bastion.
Di menu
<DMLZ-prefix>-dev-vault001
sumber daya brankas kunci, pilih Rahasia. Di bilah perintah, pilih Buat/Impor untuk membuat rahasia baru.Di Buat rahasia, pilih atau masukkan nilai berikut:
Pengaturan Tindakan Opsi unggah Pilih Manual. Nama Masukkan service-principal-secret. Nilai Masukkan kata sandi perwakilan layanan yang Anda buat sebelumnya. Catatan
Langkah ini membuat rahasia bernama
service-principal-secret
di brankas kunci dengan menggunakan kunci kata sandi perwakilan layanan. Purview menggunakan rahasia untuk menyambungkan dan memindai sumber data. Jika Anda memasukkan kata sandi yang salah, Anda tidak akan dapat menyelesaikan bagian berikut.Pilih Buat.
Menyiapkan izin Purview di brankas kunci
Agar instans Purview membaca rahasia yang disimpan di brankas kunci, Anda harus menetapkan izin yang relevan kepada Purview di brankas kunci. Untuk mengatur izin, Anda menambahkan Identitas Terkelola Purview ke peran Pembaca Rahasia brankas kunci.
Di menu
<DMLZ-prefix>-dev-vault001
sumber daya brankas kunci, pilih Kontrol akses (IAM).Di bilah perintah, pilih Tambahkan, lalu pilih Tambahkan penetapan peran.
Di Peran, cari dan pilih Pengguna Rahasia Key Vault. Pilih Selanjutnya.
Di Anggota, pilih Pilih anggota.
Cari
<DMLZ-prefix>-dev-purview001
instans Purview. Pilih instans untuk menambahkan akun yang relevan. Lalu pilih Pilih.Untuk menyelesaikan proses penetapan peran, pilih Tinjau + tetapkan dua kali.
Menyiapkan koneksi brankas kunci di Purview
Untuk menyiapkan koneksi brankas kunci ke Purview, Anda harus masuk ke portal Azure dengan menggunakan komputer virtual host Azure Bastion.
Di portal Azure, buka
<DMLZ-prefix>-dev-purview001
akun Purview. Di bawah Memulai, di Buka Portal Tata Kelola Microsoft Purview, pilih Buka.Di Purview Studio, pilih Kredensial Manajemen>. Di bilah perintah Kredensial , pilih Kelola koneksi Key Vault, lalu pilih Baru.
Di Koneksi brankas kunci baru, pilih atau masukkan informasi berikut:
Pengaturan Tindakan Nama Masukkan <DMLZ-prefix-dev-vault001>. Langganan Azure Pilih langganan yang menghosting brankas kunci. Nama Key Vault Pilih brankas <kunci DMLZ-prefix-dev-vault001>. Pilih Buat.
Di Konfirmasi pemberian akses, pilih Konfirmasi.
Membuat kredensial di Purview
Langkah terakhir untuk menyiapkan brankas kunci adalah membuat kredensial di Purview yang menunjuk ke rahasia yang Anda buat di brankas kunci untuk perwakilan layanan.
Di Purview Studio, pilih Kredensial Manajemen>. Di bilah perintah Kredensial , pilih Baru.
Di Kredensial baru, pilih atau masukkan informasi berikut:
Pengaturan Tindakan Nama Masukkan purviewServicePrincipal. Metode autentikasi Pilih Perwakilan layanan. ID Penyewa Nilai secara otomatis diisi. ID perwakilan layanan Masukkan ID aplikasi atau ID klien perwakilan layanan. Koneksi Key Vault Pilih koneksi brankas kunci yang Anda buat di bagian sebelumnya. Nama rahasia Masukkan nama rahasia di brankas kunci (service-principal-secret). Pilih Buat.
Mendaftarkan sumber data
Pada titik ini, Purview dapat terhubung ke perwakilan layanan. Sekarang Anda dapat mendaftar dan menyiapkan sumber data.
Mendaftarkan akun Azure Data Lake Storage Gen2
Langkah-langkah berikut menguraikan proses untuk mendaftarkan akun penyimpanan Azure Data Lake Storage Gen2.
Di Purview Studio, pilih ikon peta data, pilih Sumber, lalu pilih Daftar.
Di Daftarkan sumber, pilih Azure Data Lake Storage Gen2, lalu pilih Lanjutkan.
Di Daftarkan sumber (Azure Data Lake Storage Gen2), pilih atau masukkan informasi berikut:
Pengaturan Tindakan Nama Masukkan <DLZ-prefix>dldevraw. Langganan Azure Pilih langganan yang menghosting akun penyimpanan. Nama akun penyimpanan Pilih akun penyimpanan yang relevan. Endpoint Nilai secara otomatis diisi berdasarkan akun penyimpanan yang dipilih. Pilih koleksi Pilih koleksi akar. Pilih Daftar untuk membuat sumber data.
Ulangi langkah-langkah ini untuk akun penyimpanan berikut:
<DMLZ-prefix>devencur
<DMLZ-prefix>devwork
Mendaftarkan instans SQL Database sebagai sumber data
Di Purview Studio, pilih ikon Peta data, pilih Sumber, lalu pilih Daftar.
Di Daftarkan sumber, pilih Azure SQL Database, lalu pilih Lanjutkan.
Di Daftarkan sumber (Azure SQL Database), pilih atau masukkan informasi berikut:
Pengaturan Tindakan Nama Masukkan SQLDatabase (nama database yang dibuat di Membuat instans Azure SQL Database). Langganan Pilih langganan yang menghosting database. Nama Server Masukkan <DP-prefix-dev-sqlserver001>. Pilih Daftarkan.
Menyiapkan pemindaian
Selanjutnya, siapkan pemindaian untuk sumber data.
Memindai sumber data Data Lake Storage Gen2
Di Purview Studio, buka peta data. Pada sumber data, pilih ikon Pemindaian baru.
Di panel pemindaian baru, pilih atau masukkan informasi berikut:
Pengaturan Tindakan Nama Masukkan Scan_<DLZ-prefix>devraw. Koneksi melalui runtime integrasi Pilih runtime integrasi yang dihost sendiri yang disebarkan dengan zona pendaratan data. Informasi masuk Pilih perwakilan layanan yang Anda siapkan untuk Purview. Pilih Uji koneksi untuk memverifikasi konektivitas dan izin tersebut ada. Pilih Lanjutkan.
Di Cakupan pemindaian Anda, pilih seluruh akun penyimpanan sebagai cakupan untuk pemindaian, lalu pilih Lanjutkan.
Di Pilih seperangkat aturan pemindaian, pilih AdlsGen2, lalu pilih Lanjutkan.
Di Atur pemicu pemindaian, pilih Sekali, lalu pilih Lanjutkan.
Di Tinjau pemindaian Anda, tinjau pengaturan pemindaian. Pilih Simpan dan Jalankan untuk memulai pemindaian.
Ulangi langkah-langkah ini untuk akun penyimpanan berikut:
<DMLZ-prefix>devencur
<DMLZ-prefix>devwork
Memindai sumber data SQL Database
Di sumber data Azure SQL Database, pilih Pemindaian Baru.
Di panel pemindaian baru, pilih atau masukkan informasi berikut:
Pengaturan Tindakan Nama Masukkan Scan_Database001. Koneksi melalui runtime integrasi Pilih Purview-SHIR. Nama database Pilih nama database. Informasi masuk Pilih kredensial brankas kunci yang Anda buat di Purview. Ekstraksi silsilah (pratinjau) Pilih Nonaktif. Pilih Uji koneksi untuk memverifikasi konektivitas dan izin tersebut ada. Pilih Lanjutkan.
Pilih cakupan untuk pemindaian. Untuk memindai seluruh database, gunakan nilai default.
Di Pilih seperangkat aturan pemindaian, pilih AzureSqlDatabase, lalu pilih Lanjutkan.
Di Atur pemicu pemindaian, pilih Sekali, lalu pilih Lanjutkan.
Di Tinjau pemindaian Anda, tinjau pengaturan pemindaian. Pilih Simpan dan Jalankan untuk memulai pemindaian.
Ulangi langkah-langkah ini untuk AdatumERP
database.
Purview sekarang disiapkan untuk tata kelola data untuk sumber data terdaftar.
Menyalin data SQL Database ke Data Lake Storage Gen2
Dalam langkah-langkah berikut, Anda menggunakan alat Salin Data di Data Factory untuk membuat alur untuk menyalin tabel dari instans AdatumCRM
SQL Database dan AdatumERP
ke file CSV di <DLZ-prefix>devraw
akun Data Lake Storage Gen2.
Lingkungan dikunci ke akses publik, jadi pertama-tama Anda perlu menyiapkan titik akhir privat. Untuk menggunakan titik akhir privat, Anda akan masuk ke portal Azure di browser lokal Anda, lalu menyambungkan ke komputer virtual host Bastion untuk mengakses layanan Azure yang diperlukan.
Buat Titik Akhir Privat
Untuk menyiapkan titik akhir privat untuk sumber daya yang diperlukan:
<DMLZ-prefix>-dev-bastion
Di grup sumber daya, pilih<DMLZ-prefix>-dev-vm001
.Di bilah perintah, pilih Koneksi dan pilih Bastion.
Masukkan nama pengguna dan kata sandi untuk komputer virtual, lalu pilih Koneksi.
Di browser web komputer virtual, buka portal Azure.
<DLZ-prefix>-dev-shared-integration
Buka grup sumber daya dan buka<DLZ-prefix>-dev-integration-datafactory001
pabrik data.Di bawah Memulai, di Buka Azure Data Factory Studio, pilih Buka.
Di menu Data Factory Studio, pilih ikon Kelola (ikon terlihat seperti kotak alat persegi dengan kunci pas dicap di atasnya). Di menu sumber daya, pilih Titik akhir privat terkelola untuk membuat titik akhir privat yang diperlukan untuk menyambungkan Data Factory ke layanan Azure aman lainnya.
Menyetujui permintaan akses untuk titik akhir privat dibahas di bagian selanjutnya. Setelah Anda menyetujui permintaan akses titik akhir privat, status persetujuannya disetujui, seperti dalam contoh
<DLZ-prefix>devencur
akun penyimpanan berikut.Sebelum Anda menyetujui koneksi titik akhir privat, pilih Baru. Masukkan Azure SQL untuk menemukan konektor Azure SQL Database yang Anda gunakan untuk membuat titik akhir privat terkelola baru untuk
<DP-prefix>-dev-sqlserver001
komputer virtual Azure SQL. Komputer virtual berisiAdatumCRM
database danAdatumERP
yang Anda buat sebelumnya.Di Titik akhir privat terkelola baru (Azure SQL Database), untuk Nama, masukkan data-product-dev-sqlserver001. Masukkan langganan Azure yang Anda gunakan untuk membuat sumber daya. Untuk Nama server, pilih
<DP-prefix>-dev-sqlserver001
agar Anda bisa menyambungkannya dari pabrik data ini di bagian berikutnya.
Menyetujui permintaan akses titik akhir privat
Untuk memberi Data Factory akses ke titik akhir privat untuk layanan yang diperlukan, Anda memiliki beberapa opsi:
Opsi 1: Di setiap layanan tempat Anda meminta akses, di portal Azure, buka opsi koneksi jaringan atau titik akhir privat layanan dan setujui permintaan akses ke titik akhir privat.
Opsi 2: Jalankan skrip berikut di Azure Cloud Shell dalam mode Bash untuk menyetujui semua permintaan akses ke titik akhir privat yang diperlukan sekaligus.
# Storage managed private endpoint approval # devencur resourceGroupName=$(az group list -o tsv --query "[?contains(@.name, '-dev-storage')==\`true\`].name") storageAcctName=$(az storage account list -g $resourceGroupName -o tsv --query "[?contains(@.name, 'devencur')==\`true\`].name") endPointConnectionName=$(az network private-endpoint-connection list -g $resourceGroupName -n $storageAcctName --type Microsoft.Storage/storageAccounts -o tsv --query "[?contains(@.properties.privateLinkServiceConnectionState.status, 'Pending')==\`true\`].name") az network private-endpoint-connection approve -g $resourceGroupName -n $endPointConnectionName --resource-name $storageAcctName --type Microsoft.Storage/storageAccounts --description "Approved" # devraw resourceGroupName=$(az group list -o tsv --query "[?contains(@.name, '-dev-storage')==\`true\`].name") storageAcctName=$(az storage account list -g $resourceGroupName -o tsv --query "[?contains(@.name, 'devraw')==\`true\`].name") endPointConnectionName=$(az network private-endpoint-connection list -g $resourceGroupName -n $storageAcctName --type Microsoft.Storage/storageAccounts -o tsv --query "[?contains(@.properties.privateLinkServiceConnectionState.status, 'Pending')==\`true\`].name") az network private-endpoint-connection approve -g $resourceGroupName -n $endPointConnectionName --resource-name $storageAcctName --type Microsoft.Storage/storageAccounts --description "Approved" # SQL Database managed private endpoint approval resourceGroupName=$(az group list -o tsv --query "[?contains(@.name, '-dev-dp001')==\`true\`].name") sqlServerName=$(az sql server list -g $resourceGroupName -o tsv --query "[?contains(@.name, 'sqlserver001')==\`true\`].name") endPointConnectionName=$(az network private-endpoint-connection list -g $resourceGroupName -n $sqlServerName --type Microsoft.Sql/servers -o tsv --query "[?contains(@.properties.privateLinkServiceConnectionState.status, 'Pending')==\`true\`].name") az network private-endpoint-connection approve -g $resourceGroupName -n $endPointConnectionName --resource-name $sqlServerName --type Microsoft.Sql/servers --description "Approved" # Key Vault private endpoint approval resourceGroupName=$(az group list -o tsv --query "[?contains(@.name, '-dev-metadata')==\`true\`].name") keyVaultName=$(az keyvault list -g $resourceGroupName -o tsv --query "[?contains(@.name, 'dev-vault001')==\`true\`].name") endPointConnectionID=$(az network private-endpoint-connection list -g $resourceGroupName -n $keyVaultName --type Microsoft.Keyvault/vaults -o tsv --query "[?contains(@.properties.privateLinkServiceConnectionState.status, 'Pending')==\`true\`].id") az network private-endpoint-connection approve -g $resourceGroupName --id $endPointConnectionID --resource-name $keyVaultName --type Microsoft.Keyvault/vaults --description "Approved" # Purview private endpoint approval resourceGroupName=$(az group list -o tsv --query "[?contains(@.name, 'dev-governance')==\`true\`].name") purviewAcctName=$(az purview account list -g $resourceGroupName -o tsv --query "[?contains(@.name, '-dev-purview001')==\`true\`].name") for epn in $(az network private-endpoint-connection list -g $resourceGroupName -n $purviewAcctName --type Microsoft.Purview/accounts -o tsv --query "[?contains(@.properties.privateLinkServiceConnectionState.status, 'Pending')==\`true\`].name") do az network private-endpoint-connection approve -g $resourceGroupName -n $epn --resource-name $purviewAcctName --type Microsoft.Purview/accounts --description "Approved" done
Contoh berikut menunjukkan bagaimana <DLZ-prefix>devraw
akun penyimpanan mengelola permintaan akses titik akhir privat. Di menu sumber daya untuk akun penyimpanan, pilih Jaringan. Di bilah perintah, pilih Koneksi titik akhir privat.
Untuk beberapa sumber daya Azure, Anda memilih Koneksi titik akhir privat di menu sumber daya. Contoh untuk server Azure SQL diperlihatkan dalam cuplikan layar berikut.
Untuk menyetujui permintaan akses titik akhir privat, di Koneksi titik akhir privat, pilih permintaan akses yang tertunda, lalu pilih Setujui:
Setelah Anda menyetujui permintaan akses di setiap layanan yang diperlukan, mungkin perlu beberapa menit agar permintaan ditampilkan sebagai Disetujui di Titik akhir privat terkelola di Data Factory Studio. Bahkan jika Anda memilih Refresh di bilah perintah, status persetujuan mungkin basi selama beberapa menit.
Setelah Anda selesai menyetujui semua permintaan akses untuk layanan yang diperlukan, di Titik akhir privat terkelola, nilai Status persetujuan untuk semua layanan disetujui:
Penetapan peran
Setelah Anda selesai menyetujui permintaan akses titik akhir privat, tambahkan izin peran yang sesuai untuk Data Factory untuk mengakses sumber daya ini:
- Instans
AdatumCRM
SQL Database danAdatumERP
di<DP-prefix>-dev-sqlserver001
server Azure SQL <DLZ-prefix>devraw
Akun penyimpanan ,<DLZ-prefix>devencur
, dan<DLZ-prefix>devwork
- Akun Purview
<DMLZ-prefix>-dev-purview001
Komputer virtual Azure SQL
Untuk menambahkan penetapan peran, mulailah dengan komputer virtual Azure SQL.
<DMLZ-prefix>-dev-dp001
Di grup sumber daya, buka<DP-prefix>-dev-sqlserver001
.Di menu sumber daya, pilih Kontrol akses (IAM). Di bilah perintah, pilih Tambahkan>penetapan peran.
Pada tab Peran , pilih Kontributor, lalu pilih Berikutnya.
Di Anggota, untuk Tetapkan akses ke, pilih Identitas terkelola. Untuk Anggota, pilih Pilih Anggota.
Di Pilih identitas terkelola, pilih langganan Azure Anda. Untuk Identitas terkelola, pilih Data Factory (V2) untuk melihat pabrik data yang tersedia. Dalam daftar pabrik data, pilih Azure Data Factory <DLZ-prefix-dev-integration-datafactory001>. Memilih Pilih.
Pilih Tinjau + Tetapkan dua kali untuk menyelesaikan proses.
Akun penyimpanan
Selanjutnya, tetapkan peran yang diperlukan ke <DLZ-prefix>devraw
akun penyimpanan , <DLZ-prefix>devencur
, dan <DLZ-prefix>devwork
.
Untuk menetapkan peran, selesaikan langkah yang sama dengan yang Anda gunakan untuk membuat penetapan peran server Azure SQL. Tetapi, untuk peran tersebut, pilih Kontributor Data Blob Penyimpanan, bukan Kontributor.
Setelah Anda menetapkan peran untuk ketiga akun penyimpanan, Data Factory dapat terhubung dan mengakses akun penyimpanan.
Microsoft Purview
Langkah terakhir untuk menambahkan penetapan peran adalah menambahkan peran Kurator Data Purview di Microsoft Purview ke akun <DLZ-prefix>-dev-integration-datafactory001
identitas terkelola pabrik data. Selesaikan langkah-langkah berikut sehingga Data Factory dapat mengirim informasi aset katalog data dari beberapa sumber data ke akun Purview.
Di grup
<DMLZ-prefix>-dev-governance
sumber daya , buka<DMLZ-prefix>-dev-purview001
akun Purview.Di Purview Studio, pilih ikon Peta data , lalu pilih Koleksi.
Pilih tab Penetapan peran untuk koleksi. Di bawah Kurator data, tambahkan identitas terkelola untuk
<DLZ-prefix>-dev-integration-datafactory001
:
Koneksi Data Factory ke Purview
Izin diatur, dan Purview sekarang dapat melihat pabrik data. Langkah selanjutnya adalah menyambungkan <DMLZ-prefix>-dev-purview001
ke <DLZ-prefix>-dev-integration-datafactory001
.
Di Purview Studio, pilih ikon Manajemen , lalu pilih Data Factory. Pilih Baru untuk membuat koneksi Data Factory.
Di panel Koneksi Data Factory Baru, masukkan langganan Azure Anda dan pilih
<DLZ-prefix>-dev-integration-datafactory001
pabrik data. Pilih OK.<DLZ-prefix>-dev-integration-datafactory001
Di instans Data Factory Studio, di bawah Kelola>Azure Purview, refresh akun Azure Purview.Integrasi
Data Lineage - Pipeline
sekarang menunjukkan ikon hijau Koneksi.
Membuat alur ETL
Sekarang setelah <DLZ-prefix>-dev-integration-datafactory001
memiliki izin akses yang diperlukan, buat aktivitas salin di Data Factory untuk memindahkan data dari instans SQL Database ke <DLZ-prefix>devraw
akun penyimpanan mentah.
Menggunakan alat Salin Data dengan AdatumCRM
Proses ini mengekstrak data pelanggan dari AdatumCRM
instans SQL Database dan menyalinnya ke penyimpanan Data Lake Storage Gen2.
Di Data Factory Studio, pilih ikon Penulis , lalu pilih Sumber Daya Pabrik. Pilih tanda plus (+) dan pilih Salin Alat data.
Selesaikan setiap langkah dalam wizard alat Salin Data:
Untuk membuat pemicu untuk menjalankan alur setiap 24 jam, pilih Jadwalkan.
Untuk membuat layanan tertaut untuk menyambungkan pabrik data ini ke
AdatumCRM
instans SQL Database di<DP-prefix>-dev-sqlserver001
server (sumber), pilih Koneksi ion baru.Catatan
Jika Anda mengalami kesalahan saat menyambungkan atau mengakses data di instans SQL Database atau akun penyimpanan, tinjau izin Anda di langganan Azure. Pastikan bahwa pabrik data memiliki kredensial yang diperlukan dan izin akses ke sumber daya yang bermasalah.
Pilih ketiga tabel ini:
SalesLT.Address
SalesLT.Customer
SalesLT.CustomerAddress
Buat layanan tertaut baru untuk mengakses
<DLZ-prefix>devraw
penyimpanan Azure Data Lake Storage Gen2 (tujuan).Telusuri folder di
<DLZ-prefix>devraw
penyimpanan dan pilih Data sebagai tujuan.Ubah akhiran nama file menjadi .csv dan gunakan opsi default lainnya.
Buka panel berikutnya dan pilih Tambahkan header ke file.
Saat Anda menyelesaikan wizard, panel Penyebaran selesai terlihat mirip dengan contoh ini:
Alur baru tercantum dalam Alur.
Menjalankan alur
Proses ini membuat tiga file .csv di folder Data\CRM , satu untuk setiap tabel yang dipilih dalam AdatumCRM
database.
Ganti nama alur
CopyPipeline_CRM_to_Raw
.Ganti nama himpunan
CRM_Raw_Storage
data danCRM_DB
.Di bilah perintah Sumber Daya Pabrik, pilih Terbitkan semua.
CopyPipeline_CRM_to_Raw
Pilih alur, dan di bilah perintah alur, pilih Pemicu untuk menyalin tiga tabel dari SQL Database ke Data Lake Storage Gen2.
Menggunakan alat Salin Data dengan AdatumERP
Selanjutnya, ekstrak data dari AdatumERP
database. Data mewakili data penjualan yang berasal dari sistem ERP.
Masih di Data Factory Studio, buat alur baru dengan menggunakan alat Salin Data. Kali ini, Anda mengirim data penjualan dari
AdatumERP
ke<DLZ-prefix>devraw
folder data akun penyimpanan, dengan cara yang sama seperti yang Anda lakukan dengan data CRM. Selesaikan langkah-langkah yang sama, tetapi gunakanAdatumERP
database sebagai sumbernya.Buat jadwal untuk memicu setiap jam.
Buat layanan tertaut ke
AdatumERP
instans SQL Database.Pilih tujuh tabel ini:
SalesLT.Product
SalesLT.ProductCategory
SalesLT.ProductDescription
SalesLT.ProductModel
SalesLT.ProductModelProductDescription
SalesLT.SalesOrderDetail
SalesLT.SalesOrderHeader
Gunakan layanan tertaut yang ada ke
<DLZ-prefix>devraw
akun penyimpanan dan atur ekstensi file ke .csv.Pilih Tambahkan header ke file.
Selesaikan wizard lagi dan ganti nama alur
CopyPipeline_ERP_to_DevRaw
. Kemudian, di bilah perintah, pilih Terbitkan semua. Terakhir, jalankan pemicu pada alur yang baru dibuat ini untuk menyalin tujuh tabel yang dipilih dari SQL Database ke Data Lake Storage Gen2.
Saat Anda menyelesaikan langkah-langkah ini, 10 file CSV berada di <DLZ-prefix>devraw
penyimpanan Data Lake Storage Gen2. Di bagian berikutnya, Anda mengumpulkan file di <DLZ-prefix>devencur
penyimpanan Data Lake Storage Gen2.
Mengumpulkan data di Data Lake Storage Gen2
Setelah Anda selesai membuat 10 file CSV di penyimpanan Data Lake Storage Gen2 mentah <DLZ-prefix>devraw
, ubah file-file ini sesuai kebutuhan saat Anda menyalinnya ke penyimpanan Data Lake Storage Gen2 yang dikumpulkan <DLZ-prefix>devencur
.
Lanjutkan menggunakan Azure Data Factory untuk membuat alur baru ini untuk mengatur pergerakan data.
Kurasi CRM ke data pelanggan
Buat aliran data yang mendapatkan file CSV di folder Data\CRM di <DLZ-prefix>devraw
. Ubah file dan salin file yang diubah dalam format file .parquet ke folder Data\Customer di <DLZ-prefix>devencur
.
Di Azure Data Factory, buka pabrik data dan pilih Orkestrasi.
Di Umumnya, beri nama alur
Pipeline_transform_CRM
.Di panel Aktivitas, perluas Pindahkan dan Transformasi. Seret aktivitas aliran data dan letakkan di kanvas alur.
Di Menambahkan Aliran Data, pilih Buat aliran data baru dan beri nama aliran
CRM_to_Customer
data . Pilih Selesai.Catatan
Di bilah perintah kanvas alur, aktifkan Debug Aliran data. Dalam mode debug, Anda dapat menguji logika transformasi secara interaktif terhadap kluster Apache Spark langsung. Kluster aliran data membutuhkan waktu 5 hingga 7 menit untuk pemanasan. Kami menyarankan agar Anda mengaktifkan penelusuran kesalahan sebelum memulai pengembangan aliran data.
Setelah selesai memilih opsi dalam
CRM_to_Customer
aliran data,Pipeline_transform_CRM
alur terlihat mirip dengan contoh ini:Aliran data terlihat seperti contoh ini:
Selanjutnya, ubah pengaturan ini dalam aliran data untuk
CRMAddress
sumber:Buat himpunan data baru dari Data Lake Storage Gen2. Gunakan format DelimitedText. Beri nama himpunan
DevRaw_CRM_Address
data .Koneksi layanan tertaut ke
<DLZ-prefix>devraw
.Data\CRM\SalesLTAddress.csv
Pilih file sebagai sumbernya.
Ubah pengaturan ini dalam aliran data untuk sink yang dipasangkan
CustAddress
:Buat himpunan data baru bernama
DevEncur_Cust_Address
.Pilih folder Data\Customer di
<DLZ-prefix>devencur
sebagai sink.Di bawah Pengaturan\Output ke satu file, konversikan file ke Address.parquet.
Untuk sisa konfigurasi aliran data, gunakan informasi dalam tabel berikut untuk setiap komponen. Perhatikan bahwa CRMAddress
dan CustAddress
merupakan dua baris pertama. Gunakan sebagai contoh untuk objek lain.
Item yang tidak ada dalam salah satu tabel berikut ini adalah pengubah RemovePasswords
skema. Cuplikan layar sebelumnya menunjukkan bahwa item ini berada di antara CRMCustomer
dan CustCustomer
. Untuk menambahkan pengubah skema ini, buka Pilih pengaturan dan hapus PasswordHash dan PasswordSalt.
CRMCustomer
mengembalikan skema 15 kolom dari file .crv. CustCustomer
hanya menulis 13 kolom setelah pengubah skema menghapus dua kolom kata sandi.
Tabel lengkap
Nama | Tipe objek | Nama himpunan data | Penyimpanan data | Jenis format | Layanan tertaut | File atau folder |
---|---|---|---|---|---|---|
CRMAddress |
sumber | DevRaw_CRM_Address |
Azure Data Lake Storage Gen2 | DelimitedText | devraw |
Data\CRM\SalesLTAddress.csv |
CustAddress |
sink | DevEncur_Cust_Address |
Azure Data Lake Storage Gen2 | Parquet | devencur |
Data\Customer\Address.parquet |
CRMCustomer |
sumber | DevRaw_CRM_Customer |
Azure Data Lake Storage Gen2 | DelimitedText | devraw |
Data\CRM\SalesLTCustomer.csv |
CustCustomer |
sink | DevEncur_Cust_Customer |
Azure Data Lake Storage Gen2 | Parquet | devencur |
Data\Customer\Customer.parquet |
CRMCustomerAddress |
sumber | DevRaw_CRM_CustomerAddress |
Azure Data Lake Storage Gen2 | DelimitedText | devraw |
Data\CRM\SalesLTCustomerAddress.csv |
CustCustomerAddress |
sink | DevEncur_Cust_CustomerAddress |
Azure Data Lake Storage Gen2 | Parquet | devencur |
Data\Customer\CustomerAddress.parquet |
Tabel ERP ke Penjualan
Sekarang, ulangi langkah serupa untuk membuat Pipeline_transform_ERP
alur, membuat ERP_to_Sales
aliran data untuk mengubah file .csv di folder Data\ERP di <DLZ-prefix>devraw
, dan salin file yang diubah ke folder Data\Sales di <DLZ-prefix>devencur
.
Dalam tabel berikut, Anda akan menemukan objek yang akan dibuat dalam ERP_to_Sales
aliran data dan pengaturan yang perlu Anda ubah untuk setiap objek. Setiap file .csv dipetakan ke sink .parquet .
Nama | Tipe objek | Nama himpunan data | Penyimpanan data | Jenis format | Layanan tertaut | File atau folder |
---|---|---|---|---|---|---|
ERPProduct |
sumber | DevRaw_ERP_Product |
Azure Data Lake Storage Gen2 | DelimitedText | devraw |
Data\ERP\SalesLTProduct.csv |
SalesProduct |
sink | DevEncur_Sales_Product |
Azure Data Lake Storage Gen2 | Parquet | devencur |
Data\Sales\Product.parquet |
ERPProductCategory |
sumber | DevRaw_ERP_ProductCategory |
Azure Data Lake Storage Gen2 | DelimitedText | devraw |
Data\ERP\SalesLTProductCategory.csv |
SalesProductCategory |
sink | DevEncur_Sales_ProductCategory |
Azure Data Lake Storage Gen2 | Parquet | devencur |
Data\Sales\ProductCategory.parquet |
ERPProductDescription |
sumber | DevRaw_ERP_ProductDescription |
Azure Data Lake Storage Gen2 | DelimitedText | devraw |
Data\ERP\SalesLTProductDescription.csv |
SalesProductDescription |
sink | DevEncur_Sales_ProductDescription |
Azure Data Lake Storage Gen2 | Parquet | devencur |
Data\Sales\ProductDescription.parquet |
ERPProductModel |
sumber | DevRaw_ERP_ProductModel |
Azure Data Lake Storage Gen2 | DelimitedText | devraw |
Data\ERP\SalesLTProductModel.csv |
SalesProductModel |
sink | DevEncur_Sales_ProductModel |
Azure Data Lake Storage Gen2 | Parquet | devencur |
Data\Sales\ProductModel.parquet |
ERPProductModelProductDescription |
sumber | DevRaw_ERP_ProductModelProductDescription |
Azure Data Lake Storage Gen2 | DelimitedText | devraw |
Data\ERP\SalesLTProductModelProductDescription.csv |
SalesProductModelProductDescription |
sink | DevEncur_Sales_ProductModelProductDescription |
Azure Data Lake Storage Gen2 | Parquet | devencur |
Data\Sales\ProductModelProductDescription.parquet |
ERPProductSalesOrderDetail |
sumber | DevRaw_ERP_ProductSalesOrderDetail |
Azure Data Lake Storage Gen2 | DelimitedText | devraw |
Data\ERP\SalesLTProductSalesOrderDetail.csv |
SalesProductSalesOrderDetail |
sink | DevEncur_Sales_ProductSalesOrderDetail |
Azure Data Lake Storage Gen2 | Parquet | devencur |
Data\Sales\ProductSalesOrderDetail.parquet |
ERPProductSalesOrderHeader |
sumber | DevRaw_ERP_ProductSalesOrderHeader |
Azure Data Lake Storage Gen2 | DelimitedText | devraw |
Data\ERP\SalesLTProductSalesOrderHeader.csv |
SalesProductSalesOrderHeader |
sink | DevEncur_Sales_ProductSalesOrderHeader |
Azure Data Lake Storage Gen2 | Parquet | devencur |
Data\Sales\ProductSalesOrderHeader.parquet |