Menyempurnakan model Meta Llama di Azure AI Studio

Artikel
07/23/2024

Penting

Beberapa fitur yang dijelaskan dalam artikel ini mungkin hanya tersedia dalam pratinjau. Pratinjau ini disediakan tanpa perjanjian tingkat layanan, dan kami tidak merekomendasikannya untuk beban kerja produksi. Fitur tertentu mungkin tidak didukung atau mungkin memiliki kemampuan terbatas. Untuk mengetahui informasi selengkapnya, lihat Ketentuan Penggunaan Tambahan untuk Pratinjau Microsoft Azure.

Azure AI Studio memungkinkan Anda menyesuaikan model bahasa besar dengan himpunan data pribadi Anda dengan menggunakan proses yang dikenal sebagai penyempurnaan.

Penyempurnaan memberikan nilai signifikan dengan mengaktifkan kustomisasi dan pengoptimalan untuk tugas dan aplikasi tertentu. Hal ini menyebabkan peningkatan performa, efisiensi biaya, mengurangi latensi, dan output yang disesuaikan.

Dalam artikel ini, Anda mempelajari cara menyempurnakan model Meta Llama di Azure AI Studio.

Keluarga Meta Llama dari model bahasa besar (LLM) adalah kumpulan model teks generatif yang telah dilatih dan disempurnakan berkisar antara 7 miliar hingga 70 miliar parameter. Keluarga model juga mencakup versi yang disempurnakan yang dioptimalkan untuk kasus penggunaan dialog dengan Pembelajaran Penguatan dari Umpan Balik Manusia (RLHF), yang disebut Llama-Instruct.

Model berikut tersedia di Marketplace Azure untuk Llama 3.1 saat menyempurnakan sebagai layanan dengan penagihan bayar sesuai pemakaian:

Meta-Llama-3.1-80B-Instruct (pratinjau)
Meta-LLama-3.1-8b-Instruct (pratinjau)

Penyempurnaan model Llama 3.1 saat ini didukung dalam proyek yang terletak di US Barat 3.

Penting

Saat ini kami tidak dapat melakukan penyempurnaan untuk Llama 3.1 dengan panjang urutan 128K.

Prasyarat

Meta Llama 3.1
Meta Llama 2

Langganan Azure dengan metode pembayaran yang valid. Langganan Azure gratis atau uji coba tidak akan berfungsi. Jika Anda tidak memiliki langganan Azure, buat akun Azure berbayar untuk memulai.

Sumber daya hub Azure AI.

Penting

Untuk model Meta Llama 3.1, penawaran penyempurnaan model bayar sesuai penggunaan hanya tersedia dengan hub AI yang dibuat di wilayah US Barat 3 .
Proyek Azure AI di Azure AI Studio.
Kontrol akses berbasis peran Azure (Azure RBAC) digunakan untuk memberikan akses ke operasi di Azure AI Studio. Untuk melakukan langkah-langkah dalam artikel ini, akun pengguna Anda harus diberi peran pemilik atau kontributor untuk langganan Azure. Atau, akun Anda dapat diberi peran kustom yang memiliki izin berikut:
- Pada langganan Azure—untuk berlangganan proyek Azure AI ke penawaran Marketplace Azure, sekali untuk setiap proyek, per penawaran:
  - Microsoft.MarketplaceOrdering/agreements/offers/plans/read
  - Microsoft.MarketplaceOrdering/agreements/offers/plans/sign/action
  - Microsoft.MarketplaceOrdering/offerTypes/publishers/offers/plans/agreements/read
  - Microsoft.Marketplace/offerTypes/publishers/offers/plans/agreements/read
  - Microsoft.SaaS/register/action
- Pada grup sumber daya—untuk membuat dan menggunakan sumber daya SaaS:
  - Microsoft.SaaS/resources/read
  - Microsoft.SaaS/resources/write
- Pada proyek Azure AI—untuk menyebarkan titik akhir (peran Pengembang Azure AI sudah berisi izin ini):
  - Microsoft.MachineLearningServices/workspaces/marketplaceModelSubscriptions/*
  - Microsoft.MachineLearningServices/workspaces/serverlessEndpoints/*
Untuk informasi selengkapnya tentang izin, lihat Kontrol akses berbasis peran di Azure AI Studio.

Langganan Azure dengan metode pembayaran yang valid. Langganan Azure gratis atau uji coba tidak akan berfungsi. Jika Anda tidak memiliki langganan Azure, buat akun Azure berbayar untuk memulai.

Hub AI Studio.

Penting

Untuk model Meta Llama 2, penawaran penyempurnaan model bayar sesuai penggunaan hanya tersedia dengan hub yang dibuat di wilayah US Barat 3 .
Proyek AI Studio di Azure AI Studio.
Kontrol akses berbasis peran Azure (Azure RBAC) digunakan untuk memberikan akses ke operasi di Azure AI Studio. Untuk melakukan langkah-langkah dalam artikel ini, akun pengguna Anda harus diberi peran pemilik atau kontributor untuk langganan Azure. Atau, akun Anda dapat diberi peran kustom yang memiliki izin berikut:
- Pada langganan Azure—untuk berlangganan proyek AI Studio ke penawaran Marketplace Azure, sekali untuk setiap proyek, per penawaran:
  - Microsoft.MarketplaceOrdering/agreements/offers/plans/read
  - Microsoft.MarketplaceOrdering/agreements/offers/plans/sign/action
  - Microsoft.MarketplaceOrdering/offerTypes/publishers/offers/plans/agreements/read
  - Microsoft.Marketplace/offerTypes/publishers/offers/plans/agreements/read
  - Microsoft.SaaS/register/action
- Pada grup sumber daya—untuk membuat dan menggunakan sumber daya SaaS:
  - Microsoft.SaaS/resources/read
  - Microsoft.SaaS/resources/write
- Pada proyek AI Studio—untuk menyebarkan titik akhir (peran Pengembang Azure AI sudah berisi izin ini):
  - Microsoft.MachineLearningServices/workspaces/marketplaceModelSubscriptions/*
  - Microsoft.MachineLearningServices/workspaces/serverlessEndpoints/*
Untuk informasi selengkapnya tentang izin, lihat Kontrol akses berbasis peran di Azure AI Studio.

Pendaftaran penyedia langganan

Verifikasi bahwa langganan didaftarkan ke Microsoft.Network penyedia sumber daya.

Masuk ke portal Azure.
Pilih Langganan dari menu sebelah kiri.
Pilih langganan yang ingin Anda gunakan.
Pilih Pengaturan>Penyedia sumber daya dari menu sebelah kiri.
Konfirmasikan bahwa Microsoft.Network ada dalam daftar penyedia sumber daya. Jika tidak, tambahkan.

Penyiapan data

Siapkan data pelatihan dan validasi Anda untuk menyempurnakan model Anda. Himpunan data pelatihan dan validasi Anda terdiri dari contoh input dan output untuk bagaimana Anda ingin model melakukan.

Pastikan semua contoh pelatihan Anda mengikuti format yang diharapkan untuk inferensi. Untuk menyempurnakan model secara efektif, pastikan himpunan data yang seimbang dan beragam.

Ini melibatkan menjaga keseimbangan data, termasuk berbagai skenario, dan secara berkala menyempurnakan data pelatihan untuk menyelaraskan dengan harapan dunia nyata, pada akhirnya mengarah ke respons model yang lebih akurat dan seimbang.

Jenis model yang berbeda memerlukan format data pelatihan yang berbeda.

Penyelesaian Obrolan
Pembuatan Teks

Data pelatihan dan validasi yang Anda gunakan harus diformat sebagai dokumen JSON Lines (JSONL). Untuk Llama-3-80B-chat himpunan data penyempurnaan harus diformat dalam format percakapan yang digunakan oleh API penyelesaian obrolan.

Contoh format file

    {"messages": [{"role": "system", "content": "You are an Xbox customer support agent whose primary goal is to help users with issues they are experiencing with their Xbox devices. You are friendly and concise. You only provide factual answers to queries, and do not provide answers that are not related to Xbox."}, {"role": "user", "content": "Is Xbox better than PlayStation?"}, {"role": "assistant", "content": "I apologize, but I cannot provide personal opinions. My primary job is to assist you with any issues related to your Xbox device. Do you have any Xbox-related issues that need addressing?"}]}
    {"messages": [{"role": "system", "content": "You are an Xbox customer support agent whose primary goal is to help users with issues they are experiencing with their Xbox devices. You are friendly and concise. You only provide factual answers to queries, and do not provide answers that are not related to Xbox."}, {"role": "user", "content": "Can I play PC games on my Xbox?"}, {"role": "assistant", "content": "While Xbox consoles don't natively support PC games, they can play an array of Xbox games, many of which are also available on PC. Can I assist you with finding games compatible with your Xbox device?"}]}
    {"messages": [{"role": "system", "content": "You are an Xbox customer support agent whose primary goal is to help users with issues they are experiencing with their Xbox devices. You are friendly and concise. You only provide factual answers to queries, and do not provide answers that are not related to Xbox."}, {"role": "user", "content": "I'm having trouble connecting my Xbox to the Wi-Fi."}, {"role": "assistant", "content": "No worries, let's go through the network settings on your Xbox. Can you please tell me what happens when you try to connect it to the Wi-Fi?"}]}

Jenis file yang didukung adalah JSON Lines. File diunggah ke datastore default dan tersedia di proyek Anda.

Data pelatihan dan validasi yang Anda gunakan harus diformat sebagai dokumen JSON Lines (JSONL) di mana setiap baris mewakili satu pasangan penyelesaian perintah.

Contoh format file

{"prompt": "<prompt text>", "completion": "<ideal generated text>"}
{"prompt": "<prompt text>", "completion": "<ideal generated text>"}
{"prompt": "<prompt text>", "completion": "<ideal generated text>"}

Berikut adalah beberapa contoh himpunan data di Hugging Face yang dapat Anda gunakan untuk menyempurnakan model Anda:

Klasifikasi teks tunggal mengharuskan data pelatihan menyertakan setidaknya dua bidang seperti text1 dan label. Klasifikasi pasangan teks memerlukan data pelatihan untuk menyertakan setidaknya tiga bidang seperti text1, , text2dan label.

Jenis file yang didukung adalah JSON Lines. File diunggah ke datastore default dan tersedia di proyek Anda.

Menyempurnakan model Meta Llama

Meta Llama 3.1
Meta Llama 2

Untuk menyempurnakan model LLama 3.1:

Masuk ke Azure AI Studio.
Pilih model yang ingin Anda sesuaikan dari katalog model Azure AI Studio.
Pada halaman Detail model, pilih sesuaikan.
Pilih proyek tempat Anda ingin menyempurnakan model Anda. Untuk menggunakan penawaran penyempurnaan model bayar sesuai pemakaian, ruang kerja Anda harus berada di wilayah US Barat 3 .
Pada wizard penyempurnaan, pilih tautan untuk Marketplace Azure Ketentuan untuk mempelajari selengkapnya tentang ketentuan penggunaan. Anda juga dapat memilih tab detail penawaran Marketplace untuk mempelajari tentang harga untuk model yang dipilih.
Jika ini adalah pertama kalinya Anda menyempurnakan model dalam proyek, Anda harus berlangganan proyek Anda untuk penawaran tertentu (misalnya, Meta-Llama-3-70B) dari Marketplace Azure. Langkah ini mengharuskan akun Anda memiliki izin langganan Azure dan izin grup sumber daya yang tercantum dalam prasyarat. Setiap proyek memiliki langganannya sendiri untuk penawaran Marketplace Azure tertentu, yang memungkinkan Anda mengontrol dan memantau pengeluaran. Pilih Berlangganan dan sesuaikan.

Catatan

Berlangganan proyek ke penawaran Marketplace Azure tertentu (dalam hal ini, Meta-Llama-3-70B) mengharuskan akun Anda memiliki akses Kontributor atau Pemilik di tingkat langganan tempat proyek dibuat. Atau, akun pengguna Anda dapat diberi peran kustom yang memiliki izin langganan Azure dan izin grup sumber daya yang tercantum dalam prasyarat.
Setelah Anda mendaftarkan proyek untuk penawaran Marketplace Azure tertentu, penyempurnaan berikutnya dari penawaran yang sama dalam proyek yang sama tidak memerlukan berlangganan lagi. Oleh karena itu, Anda tidak perlu memiliki izin tingkat langganan untuk pekerjaan penyempurnaan berikutnya. Jika skenario ini berlaku untuk Anda, pilih Lanjutkan untuk menyempurnakan.
Masukkan nama untuk model yang disempurnakan dan tag dan deskripsi opsional.
Pilih data pelatihan untuk menyempurnakan model Anda. Lihat persiapan data untuk informasi selengkapnya.

Catatan

Jika Anda memiliki file pelatihan/validasi dalam penyimpanan data yang lebih sedikit kredensial, Anda harus mengizinkan akses identitas terkelola ruang kerja ke datastore mereka untuk melanjutkan penyempurnaan MaaS dengan penyimpanan yang lebih sedikit kredensial. Pada halaman "Datastore", setelah mengklik "Perbarui autentikasi" > Pilih opsi berikut:

Pastikan semua contoh pelatihan Anda mengikuti format yang diharapkan untuk inferensi. Untuk menyempurnakan model secara efektif, pastikan himpunan data yang seimbang dan beragam. Ini melibatkan menjaga keseimbangan data, termasuk berbagai skenario, dan secara berkala menyempurnakan data pelatihan untuk menyelaraskan dengan harapan dunia nyata, pada akhirnya mengarah ke respons model yang lebih akurat dan seimbang.
- Ukuran batch yang akan digunakan untuk pelatihan. Ketika diatur ke -1, batch_size dihitung sebagai 0,2% dari contoh dalam set pelatihan dan maksimalnya adalah 256.
- Tingkat pembelajaran penyempurnaan adalah tingkat pembelajaran asli yang digunakan untuk pralatih dikalikan dengan pengali ini. Sebaiknya bereksperimen dengan nilai antara 0,5 dan 2. Secara empiris, kami telah menemukan bahwa tingkat pembelajaran yang lebih besar sering berkinerja lebih baik dengan ukuran batch yang lebih besar. Harus antara 0,0 dan 5,0.
- Jumlah epoch pelatihan. Epoch mengacu pada satu siklus penuh melalui himpunan data.
Parameter tugas adalah langkah opsional dan opsi lanjutan- Menyetel hyperparameter sangat penting untuk mengoptimalkan model bahasa besar (LLM) dalam aplikasi dunia nyata. Ini memungkinkan peningkatan performa dan penggunaan sumber daya yang efisien. Pengaturan default dapat digunakan atau pengguna tingkat lanjut dapat menyesuaikan parameter seperti epoch atau tingkat pembelajaran.
Tinjau pilihan Anda dan lanjutkan untuk melatih model Anda.

Setelah model Anda disempurnakan, Anda dapat menyebarkan model dan dapat menggunakannya di aplikasi Anda sendiri, di taman bermain, atau dalam alur perintah. Untuk informasi selengkapnya, lihat Cara menyebarkan keluarga Llama 3.1 dari model bahasa besar dengan Azure AI Studio.

Membersihkan model yang disempurnakan

Anda dapat menghapus model yang disempurnakan dari daftar model penyempurnaan di Azure AI Studio atau dari halaman detail model. Pilih model yang disempurnakan untuk dihapus dari halaman Penyempurnaan, lalu pilih tombol Hapus untuk menghapus model yang disempurnakan.

Catatan

Anda tidak dapat menghapus model kustom jika memiliki penyebaran yang sudah ada. Anda harus terlebih dahulu menghapus penyebaran model sebelum dapat menghapus model kustom Anda.

Biaya dan kuota

Pertimbangan biaya dan kuota untuk model Meta Llama yang disempurnakan sebagai layanan

Model Meta Llama yang disempurnakan sebagai layanan ditawarkan oleh Meta melalui Marketplace Azure dan terintegrasi dengan Azure AI Studio untuk digunakan. Anda dapat menemukan harga Marketplace Azure saat menyebarkan atau menyempurnakan model.

Setiap kali proyek berlangganan penawaran tertentu dari Marketplace Azure, sumber daya baru dibuat untuk melacak biaya yang terkait dengan konsumsinya. Sumber daya yang sama digunakan untuk melacak biaya yang terkait dengan inferensi dan penyempurnaan; namun, beberapa meter tersedia untuk melacak setiap skenario secara independen.

Untuk informasi selengkapnya tentang cara melacak biaya, lihat memantau biaya untuk model yang ditawarkan di seluruh Marketplace Azure.

Pemfilteran konten

Model yang disebarkan sebagai layanan dengan penagihan prabayar dilindungi oleh Azure AI Content Safety. Saat disebarkan ke titik akhir real-time, Anda dapat memilih keluar dari kemampuan ini. Dengan keamanan konten Azure AI diaktifkan, perintah dan penyelesaian melewati ansambel model klasifikasi yang bertujuan mendeteksi dan mencegah output konten berbahaya. Sistem pemfilteran konten mendeteksi dan mengambil tindakan pada kategori tertentu dari konten yang berpotensi berbahaya dalam perintah input dan penyelesaian output. Pelajari selengkapnya tentang Azure AI Content Safety.

Bagikan melalui

Menyempurnakan model Meta Llama di Azure AI Studio

Model

Prasyarat

Pendaftaran penyedia langganan

Penyiapan data

Contoh format file

Contoh format file

Menyempurnakan model Meta Llama

Membersihkan model yang disempurnakan

Biaya dan kuota

Pertimbangan biaya dan kuota untuk model Meta Llama yang disempurnakan sebagai layanan

Pemfilteran konten

Langkah berikutnya

Saran dan Komentar

Saran dan Komentar

Sumber Daya Tambahan: