Cara menerapkan vektorisasi terintegrasi menggunakan model dari Azure AI Studio

Artikel
05/21/2024

Penting

Fitur ini berada di pratinjau publik dalam Ketentuan Penggunaan Tambahan. REST API Pratinjau 2024-05-01 mendukung fitur ini.

Dalam artikel ini, pelajari cara mengakses model penyematan di katalog model Azure AI Studio untuk konversi vektor selama pengindeksan dan dalam kueri di Azure AI Search.

Alur kerja mencakup langkah-langkah penyebaran model. Katalog model mencakup model penyematan dari Azure OpenAI, Cohere, Facebook, dan OpenAI. Menyebarkan model dapat ditagih sesuai struktur penagihan setiap penyedia.

Setelah model disebarkan, Anda dapat menggunakannya untuk vektorisasi terintegrasi selama pengindeksan, atau dengan vektorizer AI Studio untuk kueri.

Menyebarkan model penyematan dari katalog model Azure AI Studio

Buka katalog model Azure AI Studio.
Terapkan filter untuk memperlihatkan model penyematan saja. Di bawah Tugas inferensi, pilih Penyematan:
Pilih model yang ingin Anda vektorisasi konten Anda. Lalu pilih Sebarkan dan pilih opsi penyebaran.
Isi detail yang diminta. Pilih atau buat proyek AI baru, lalu pilih Sebarkan. Detail penyebaran bervariasi tergantung pada model mana yang Anda pilih.
Tunggu hingga model selesai disebarkan dengan memantau Status Provisi. Ini harus berubah dari "Provisi" menjadi "Memperbarui" menjadi "Berhasil". Anda mungkin perlu memilih Refresh setiap beberapa menit untuk melihat pembaruan status.
Salin bidang URL, Kunci primer, dan ID Model dan sisihkan untuk nanti. Anda memerlukan nilai-nilai ini untuk definisi vektorizer dalam indeks pencarian, dan untuk set keterampilan yang memanggil titik akhir model selama pengindeksan.

Secara opsional, Anda dapat mengubah titik akhir untuk menggunakan autentikasi Token alih-alih autentikasi Kunci. Jika Anda mengaktifkan autentikasi token, Anda hanya perlu menyalin URL dan ID Model, dan juga mencatat wilayah mana model disebarkan.
Anda sekarang dapat mengonfigurasi indeks pencarian dan pengindeks untuk menggunakan model yang disebarkan.
- Untuk menggunakan model selama pengindeksan, lihat langkah-langkah untuk mengaktifkan vektorisasi terintegrasi. Pastikan untuk menggunakan keterampilan Azure Pembelajaran Mesin (AML), dan bukan keterampilan AzureOpenAIEmbedding. Bagian berikutnya menjelaskan konfigurasi keterampilan.
- Untuk menggunakan model sebagai vektorizer pada waktu kueri, lihat Mengonfigurasi vektorizer. Pastikan untuk menggunakan vektorizer katalog model Azure AI Studio untuk langkah ini.

Contoh payload keterampilan AML

Saat Anda menyebarkan model penyematan dari katalog model Azure AI Studio, Anda menyambungkannya menggunakan keterampilan AML di Azure AI Search untuk mengindeks beban kerja.

Bagian ini menjelaskan definisi keterampilan AML dan pemetaan indeks. Ini termasuk payload sampel yang sudah dikonfigurasi untuk bekerja dengan titik akhir yang disebarkan yang sesuai. Untuk detail teknis selengkapnya tentang cara kerja payload ini, baca tentang konteks Keterampilan dan bahasa anotasi input.

Payload keterampilan AML ini berfungsi dengan model berikut dari AI Studio:

OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32
OpenAI-CLIP-Image-Text-Embeddings-ViT-Large-Patch14-336

Ini mengasumsikan bahwa Anda memotong konten Anda menggunakan keterampilan Pemisahan Teks dan bahwa teks yang akan di-vektorisasi berada di /document/pages/* jalur . Jika teks Anda berasal dari jalur yang berbeda, perbarui semua referensi ke jalur yang /document/pages/* sesuai.

URI dan kunci dihasilkan saat Anda menyebarkan model dari katalog. Untuk informasi selengkapnya tentang nilai-nilai ini, lihat Cara menyebarkan model bahasa besar dengan Azure AI Studio.

{
  "@odata.type": "#Microsoft.Skills.Custom.AmlSkill",
  "context": "/document/pages/*",
  "uri": "{YOUR_MODEL_URL_HERE}",
  "key": "{YOUR_MODEL_KEY_HERE}",
  "inputs": [
    {
      "name": "input_data",
      "sourceContext": "/document/pages/*",
      "inputs": [
        {
          "name": "columns",
          "source": "=['image', 'text']"
        },
        {
          "name": "index",
          "source": "=[0]"
        },
        {
          "name": "data",
          "source": "=[['', $(/document/pages/*)]]"
        }
      ]
    }
  ],
  "outputs": [
    {
      "name": "text_features"
    }
  ]
}

Payload keterampilan AML ini berfungsi dengan model berikut dari AI Studio:

OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32
OpenAI-CLIP-Image-Text-Embeddings-ViT-Large-Patch14-336
Facebook-DinoV2-Image-Embeddings-ViT-Base
Facebook-DinoV2-Image-Embeddings-ViT-Giant

Ini mengasumsikan bahwa gambar Anda berasal dari /document/normalized_images/* jalur yang dibuat dengan mengaktifkan ekstraksi gambar bawaan. Jika gambar Anda berasal dari jalur yang berbeda atau disimpan sebagai URL, perbarui semua referensi ke jalur yang /document/normalized_images/* sesuai.

URI dan kunci dihasilkan saat Anda menyebarkan model dari katalog. Untuk informasi selengkapnya tentang nilai-nilai ini, lihat Cara menyebarkan model bahasa besar dengan Azure AI Studio.

{
  "@odata.type": "#Microsoft.Skills.Custom.AmlSkill",
  "context": "/document/normalized_images/*",
  "uri": "{YOUR_MODEL_URL_HERE}",
  "key": "{YOUR_MODEL_HERE}",
  "inputs": [
    {
      "name": "input_data",
      "sourceContext": "/document/normalized_images/*",
      "inputs": [
        {
          "name": "columns",
          "source": "=['image', 'text']"
        },
        {
          "name": "index",
          "source": "=[0]"
        },
        {
          "name": "data",
          "source": "=[[$(/document/normalized_images/*/data), '']]"
        }
      ]
    }
  ],
  "outputs": [
    {
      "name": "image_features"
    }
  ]
}

Payload keterampilan AML ini berfungsi dengan model berikut dari AI Studio:

Cohere-embed-v3-english
Cohere-embed-v3-multilingual

Ini mengasumsikan bahwa Anda memotong konten Anda menggunakan SplitSkill dan oleh karena itu teks Anda yang akan di-vektorisasi berada di /document/pages/* jalur . Jika teks Anda berasal dari jalur yang berbeda, perbarui semua referensi ke jalur yang /document/pages/* sesuai.

Anda harus menambahkan jalur ke /v1/embed akhir URL yang Anda salin dari penyebaran AI Studio Anda. Anda juga dapat mengubah nilai untuk input_typeinput , truncate dan embedding_types agar lebih sesuai dengan kasus penggunaan Anda. Untuk informasi selengkapnya tentang opsi yang tersedia, tinjau referensi COhere Embed API.

URI dan kunci dihasilkan saat Anda menyebarkan model dari katalog. Untuk informasi selengkapnya tentang nilai-nilai ini, lihat Cara menyebarkan model Cohere Embed dengan Azure AI Studio.

{
  "@odata.type": "#Microsoft.Skills.Custom.AmlSkill",
  "context": "/document/pages/*",
  "uri": "{YOUR_MODEL_URL_HERE}/v1/embed",
  "key": "{YOUR_MODEL_KEY_HERE}",
  "inputs": [
    {
      "name": "texts",
      "source": "=[$(/document/pages/*)]"
    },
    {
      "name": "input_type",
      "source": "='search_document'"
    },
    {
      "name": "truncate",
      "source": "='NONE'"
    },
    {
      "name": "embedding_types",
      "source": "=['float']"
    }
  ],
  "outputs": [
    {
      "name": "embeddings",
      "targetName": "aml_vector_data"
    }
  ]
}

Selain itu, output model Cohere bukan array penyematan secara langsung, melainkan objek JSON yang berisinya. Anda perlu memilihnya dengan tepat saat memetakannya ke definisi indeks melalui indexProjections atau outputFieldMappings. Berikut adalah contoh indexProjections payload yang memungkinkan Anda menerapkan pemetaan ini.

Jika Anda memilih yang berbeda embedding_types dalam definisi keterampilan yang harus Anda ubah float di source jalur ke jenis yang sesuai yang Anda pilih sebagai gantinya.

"indexProjections": {
  "selectors": [
    {
      "targetIndexName": "{YOUR_TARGET_INDEX_NAME_HERE}",
      "parentKeyFieldName": "ParentKey", // Change this to the name of the field in your index definition where the parent key will be stored
      "sourceContext": "/document/pages/*",
      "mappings": [
        {
          "name": "aml_vector", // Change this to the name of the field in your index definition where the Cohere embedding will be stored
          "source": "/document/pages/*/aml_vector_data/float/0"
        }
      ]
    }
  ],
  "parameters": {}
}

Sampel payload vektorizer AI Studio

Vektorizer AI Studio, tidak seperti keterampilan AML, disesuaikan untuk bekerja hanya dengan model penyematan yang dapat disebarkan melalui katalog model AI Studio. Perbedaan utamanya adalah Anda tidak perlu khawatir tentang payload permintaan dan respons, tetapi Anda harus memberikan modelName, yang sesuai dengan "ID Model" yang Anda salin setelah menyebarkan model di AI Studio.

Berikut adalah contoh payload tentang bagaimana Anda akan mengonfigurasi vektorizer pada definisi indeks Anda mengingat properti yang disalin dari AI Studio.

Untuk model Cohere, Anda TIDAK boleh menambahkan /v1/embed jalur ke akhir URL seperti yang Anda lakukan dengan keterampilan.

"vectorizers": [
    {
        "name": "{YOUR_VECTORIZER_NAME_HERE}",
        "kind": "aml",
        "amlParameters": {
            "uri": "{YOUR_URL_HERE}",
            "key": "{YOUR_PRIMARY_KEY_HERE}",
            "modelName": "{YOUR_MODEL_ID_HERE}"
        },
    }
]

Koneksi menggunakan autentikasi token

Jika Anda tidak dapat menggunakan autentikasi berbasis kunci, Anda dapat mengonfigurasi keterampilan AML dan koneksi vektorizer AI Studio untuk autentikasi token melalui kontrol akses berbasis peran di Azure. Layanan pencarian harus memiliki sistem atau identitas terkelola yang ditetapkan pengguna, dan identitas harus memiliki izin Pemilik atau Kontributor untuk ruang kerja proyek AML Anda. Anda kemudian dapat menghapus bidang kunci dari definisi keterampilan dan vektorizer Anda, menggantinya dengan bidang resourceId. Jika proyek AML dan layanan pencarian Anda berada di wilayah yang berbeda, berikan juga bidang wilayah.

"uri": "{YOUR_URL_HERE}",
"resourceId": "subscriptions/{YOUR_SUBSCRIPTION_ID_HERE/resourceGroups/{YOUR_RESOURCE_GROUP_NAME_HERE}/providers/Microsoft.MachineLearningServices/workspaces/{YOUR_AML_WORKSPACE_NAME_HERE}/onlineendpoints/{YOUR_AML_ENDPOINT_NAME_HERE}",
"region": "westus", // Only need if AML project lives in different region from search service

Bagikan melalui

Cara menerapkan vektorisasi terintegrasi menggunakan model dari Azure AI Studio

Menyebarkan model penyematan dari katalog model Azure AI Studio

Contoh payload keterampilan AML

Sampel payload vektorizer AI Studio

Koneksi menggunakan autentikasi token

Langkah berikutnya

Saran dan Komentar

Saran dan Komentar

Sumber Daya Tambahan: