Menggunakan model bahasa

Selesai

Organisasi dan pengembang dapat melatih model bahasa mereka sendiri dari awal, tetapi, dalam sebagian besar kasus, lebih praktis untuk menggunakan model fondasi yang sudah ada, dan secara opsional menyempurnakannya dengan data pelatihan Anda sendiri. Ada banyak sumber model yang bisa Anda gunakan.

Di Microsoft Azure, Anda dapat menemukan model fondasi di layanan Azure OpenAI dan di Katalog Model. Katalog Model adalah sumber model yang dikumpulkan untuk ilmuwan dan pengembang data menggunakan Azure AI Studio dan Azure Pembelajaran Mesin. Ini menawarkan manfaat model bahasa mutakhir seperti kumpulan model generative pre-trained transformer (GPT) (yang menjadi basis ChatGPT dan layanan AI generatif milik Microsoft sendiri ) serta model DALL-E untuk pembuatan gambar. Dengan menggunakan model ini dari Azure OpenAI service berarti Anda juga mendapatkan manfaat dari platform cloud Azure yang aman dan dapat diskalakan yang menjadi tempat model tersebut di-host.

Selain model Azure OpenAI, katalog model menyertakan model sumber terbuka terbaru dari Microsoft dan beberapa mitra, termasuk:

  • OpenAI
  • HuggingFace
  • Mistral
  • Meta dan lainnya.

Beberapa model Azure OpenAI umum adalah:

  • GPT-3.5-Turbo, GPT-4, dan GPT-4o: Model bahasa percakapan dan keluar pesan.
  • GPT-4 Turbo dengan Visi: Model bahasa yang dikembangkan oleh OpenAI yang dapat menganalisis gambar dan memberikan respons tekstual terhadap pertanyaan tentang mereka. Ini menggabungkan pemrosesan bahasa alami dan pemahaman visual.
  • DALL-E: Model bahasa yang menghasilkan gambar asli, variasi gambar, dan dapat mengedit gambar.

Model bahasa besar dan kecil

Ada banyak model bahasa yang tersedia yang dapat Anda gunakan untuk mendukung aplikasi AI generatif. Secara umum, model bahasa dapat dipertimbangkan dalam dua kategori: Model Bahasa Besar (LLM) dan Model Bahasa Kecil (SLM).

Model Bahasa Besar (LLM) Model Bahasa Kecil (SLM)
LLM dilatih dengan sejumlah besar teks yang mewakili berbagai materi pelajaran umum - biasanya dengan sumber data dari Internet dan publikasi lain yang tersedia secara umum. SLM dilatih dengan himpunan data yang lebih kecil dan lebih berfokus pada subjek
Ketika dilatih, LLM memiliki banyak miliaran (bahkan triliunan) parameter (bobot yang dapat diterapkan ke penyematan vektor untuk menghitung urutan token yang diprediksi). Biasanya memiliki lebih sedikit parameter daripada LLM.
Mampu menunjukkan kemampuan pembuatan bahasa yang komprehensif dalam berbagai konteks percakapan. Kosakata yang difokuskan ini membuatnya sangat efektif dalam topik percakapan tertentu, tetapi kurang efektif untuk membuat bahasa yang lebih umum.
Ukurannya yang besar dapat memengaruhi performanya dan membuatnya sulit untuk disebarkan secara lokal pada perangkat dan komputer. Ukuran SLM yang lebih kecil dapat menyediakan lebih banyak opsi untuk penyebaran, termasuk penyebaran lokal ke perangkat dan komputer lokal; dan membuatnya lebih cepat dan lebih mudah untuk penyempurnaannya.
Menyempurnakan model dengan data tambahan untuk menyesuaikan keahlian subjeknya dapat memakan waktu, dan mahal dalam hal daya komputasi yang diperlukan untuk melakukan pelatihan tambahan. Penyempurnaan berpotensi lebih sedikit memakan waktu dan mahal.