Menyalin data ke indeks Pencarian Azure AI menggunakan Azure Data Factory atau Synapse Analytics

BERLAKU UNTUK:Azure Data Factory Azure Synapse Analytics

Tip

Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!

Artikel ini menguraikan cara menggunakan Aktivitas Salin di alur Azure Data Factory atau Synapse Analytics untuk menyalin data ke indeks Pencarian Azure AI. Artikel tersebut dibuat berdasarkan artikel gambaran umum aktivitas salin yang menyajikan gambaran umum aktivitas salin.

Kemampuan yang didukung

Konektor Azure AI Search ini didukung untuk kemampuan berikut:

Kemampuan yang didukung IR Titik akhir privat terkelola
Aktivitas salin (-/sink) ① ②

① Runtime integrasi Azure ② Runtime integrasi yang dihost sendiri

Anda juga dapat menyalin data dari penyimpanan data sumber yang didukung ke indeks pencarian. Untuk daftar penyimpanan data yang didukung sebagai sumber/sink oleh aktivitas salin, lihat tabel Penyimpanan data yang didukung.

Memulai

Untuk melakukan aktivitas Salin dengan alur, Anda dapat menggunakan salah satu alat atau SDK berikut:

Membuat layanan tertaut ke Azure Search menggunakan UI

Gunakan langkah-langkah berikut untuk membuat layanan tertaut ke Azure Search di UI portal Azure.

  1. Telusuri ke tab Kelola di ruang kerja Azure Data Factory atau Synapse Anda dan pilih Layanan Tertaut, lalu klik Baru:

  2. Cari dan pilih konektor Azure Search.

    Select the Azure Search connector.

  3. Konfigurasikan detail layanan, uji koneksi, dan buat layanan tertaut baru.

    Configure a linked service to Azure Search.

Detail konfigurasi konektor

Bagian berikut ini menyediakan detail tentang properti yang digunakan untuk menentukan entitas Data Factory khusus untuk konektor Azure AI Search.

Properti layanan tertaut

Properti berikut ini didukung untuk layanan tertaut Azure AI Search:

Properti Deskripsi Wajib
jenis Properti jenis harus diatur ke: AzureSearch Ya
url URL untuk layanan pencarian. Ya
kunci Kunci admin untuk layanan pencarian. Tandai bidang ini sebagai SecureString untuk menyimpannya dengan aman, atau mereferensikan rahasia yang disimpan di Azure Key Vault. Ya
connectVia Runtime integrasi yang akan digunakan untuk menyambungkan ke penyimpanan data. Anda dapat menggunakan Azure Integration Runtime atau Integration Runtime yang Dihost Sendiri (jika penyimpanan data Anda berada di jaringan privat). Jika tidak ditentukan, Azure Integration Runtime default akan digunakan. Tidak

Penting

Saat menyalin data dari penyimpanan data cloud ke dalam indeks pencarian, di layanan tertaut Azure AI Search, Anda perlu merujuk Azure Integration Runtime dengan wilayah eksplisit di connactVia. Tetapkan wilayah sebagai tempat layanan pencarian Anda berada. Pelajari selengkapnya dari Azure Integration Runtime.

Contoh:

{
    "name": "AzureSearchLinkedService",
    "properties": {
        "type": "AzureSearch",
        "typeProperties": {
            "url": "https://<service>.search.windows.net",
            "key": {
                "type": "SecureString",
                "value": "<AdminKey>"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Properti himpunan data

Untuk daftar lengkap bagian dan properti yang tersedia untuk menentukan himpunan data, lihat artikel himpunan data. Bagian ini menyediakan daftar properti yang didukung oleh himpunan data Azure AI Search.

Untuk menyalin data ke Azure AI Search, properti berikut ini didukung:

Properti Deskripsi Wajib
jenis Properti jenis himpunan data harus diatur ke: AzureSearchIndex Ya
indexName Nama indeks pencarian. Layanan ini tidak membuat indeks. Indeks harus ada di Azure AI Search. Ya

Contoh:

{
    "name": "AzureSearchIndexDataset",
    "properties": {
        "type": "AzureSearchIndex",
        "typeProperties" : {
            "indexName": "products"
        },
        "schema": [],
        "linkedServiceName": {
            "referenceName": "<Azure AI Search linked service name>",
            "type": "LinkedServiceReference"
        }
   }
}

Properti aktivitas salin

Untuk daftar lengkap bagian dan properti yang tersedia untuk menentukan aktivitas, lihat artikel Alur. Bagian ini menyediakan daftar properti yang didukung oleh sumber Pencarian Azure AI.

Pencarian Azure AI sebagai sink

Untuk menyalin data ke Azure AI Search, atur jenis sumber dalam aktivitas salin ke AzureSearchIndexSink. Berikut adalah properti yang didukung di bagian sink aktivitas salin:

Properti Deskripsi Wajib
jenis Properti jenis dari sumber aktivitas salin harus diatur ke AzureSearchIndexSink Ya
writeBehavior Menentukan apakah akan menggabungkan atau mengganti ketika dokumen sudah ada dalam indeks. Lihat properti WriteBehavior.

Nilai yang diperbolehkan Gabungkan (default) dan Unggah.
Tidak
writeBatchSize Mengunggah data ke dalam indeks pencarian ketika ukuran buffer mencapai writeBatchSize. Lihat properti WriteBatchSize untuk detailnya.

Nilai yang diperbolehkan adalah: bilangan bulat 1 hingga 1.000; defaultnya adalah 1000.
Tidak
maxConcurrentConnections Batas atas koneksi bersamaan yang ditetapkan ke penyimpanan data selama eksekusi aktivitas. Menentukan nilai hanya saat Anda ingin membatasi koneksi bersamaan. Tidak

Properti WriteBehavior

AzureSearchSink upsert saat menulis data. Dengan kata lain, saat menulis dokumen, jika kunci dokumen sudah ada di indeks pencarian, Azure AI Search memperbarui dokumen yang ada daripada melemparkan pengecualian konflik.

AzureSearchSink menyediakan dua perilaku upsert berikut (dengan menggunakan AzureSearch SDK):

  • Gabungkan: gabungkan semua kolom di dokumen baru dengan yang sudah ada. Untuk kolom dengan nilai kosong di dokumen baru, nilai dalam yang sudah ada dipertahankan.
  • Unggah: Dokumen baru menggantikan dokumen yang sudah ada. Untuk kolom yang tidak ditentukan dalam dokumen baru, nilai diatur ke null apakah ada nilai bukan nol di dokumen yang ada atau tidak.

Perilaku default adalah Gabungkan.

Properti WriteBatchSize

Azure AI layanan Pencarian mendukung penulisan dokumen sebagai batch. Batch dapat berisi 1 hingga 1.000 Tindakan. Tindakan menangani satu dokumen untuk melakukan operasi unggah/gabungkan.

Contoh:

"activities":[
    {
        "name": "CopyToAzureSearch",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<Azure AI Search output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>"
            },
            "sink": {
                "type": "AzureSearchIndexSink",
                "writeBehavior": "Merge"
            }
        }
    }
]

Dukungan jenis data

Tabel berikut menentukan apakah jenis data Pencarian Azure AI didukung atau tidak.

Jenis data Pencarian Azure AI Didukung di Azure AI Search Sink
String Y
Int32 Y
Int64 Y
Laju Y
Boolean Y
DataTimeOffset Y
Array String N
GeographyPoint N

Saat ini jenis data lainnya misalnya ComplexType tidak didukung. Untuk daftar lengkap jenis data yang didukung Azure AI Search, lihat Jenis data yang didukung (Pencarian Azure AI).

Untuk daftar penyimpanan data yang didukung sebagai sumber dan sink oleh aktivitas salin, lihat penyimpanan data yang didukung.