Kecerdasan Buatan Generatif dengan Basis Data Azure untuk PostgreSQL

AI generatif mengacu pada kelas algoritma AI yang dapat belajar dari konten multimedia yang ada dan menghasilkan konten baru. Konten yang diproduksi dapat disesuaikan melalui teknik seperti perintah dan penyempurnaan. Algoritma AI generatif menerapkan model pembelajaran mesin tertentu:

Transformer dan jaringan neural berulang (RNN) untuk pembuatan teks
Jaringan adversarial generatif (GAN) dan autoencoder variational (VAEs) untuk pembuatan gambar

AI generatif digunakan dalam sintesis gambar dan musik dan dalam perawatan kesehatan, bersama dengan tugas umum seperti pelengkapan otomatis teks, ringkasan teks, dan terjemahan. Teknik AI generatif memungkinkan fitur pada data seperti pengklusteran dan segmentasi, pencarian dan rekomendasi semantik, pemodelan topik, jawaban atas pertanyaan, dan deteksi anomali.

Video berikut menunjukkan penggunaan AI generatif dengan Azure Database for PostgreSQL dan pgvector ekstensi, yang dapat membantu Anda memahami konsep dalam artikel ini.

OpenAI

OpenAI adalah organisasi penelitian dan perusahaan teknologi yang dikenal karena pekerjaan perintisnya di bidang AI dan pembelajaran mesin. Misinya adalah memastikan bahwa kecerdasan umum buatan (AGI), yang mengacu pada sistem AI yang sangat otonom yang dapat mengungguli manusia dalam sebagian besar pekerjaan yang berharga secara ekonomi, menguntungkan semua umat manusia. OpenAI membawa model generatif canggih seperti GPT-3, GPT-3.5, dan GPT-4.

Azure OpenAI adalah penawaran layanan Microsoft untuk membantu membangun aplikasi AI generatif dengan menggunakan Azure. Azure OpenAI memberi pelanggan kecerdasan buatan bahasa yang canggih dengan model OpenAI GPT-4, GPT-3, Codex, DALL-E, dan Whisper, dengan kemampuan keamanan dan korporat dari Azure. Azure OpenAI mengembangkan bersama API-API dengan OpenAI untuk memastikan kompatibilitas dan transisi yang lancar dari satu API ke API lainnya.

Dengan Azure OpenAI, pelanggan mendapatkan kemampuan keamanan Microsoft Azure sambil menjalankan model yang sama dengan OpenAI. Azure OpenAI menawarkan jaringan privat, ketersediaan regional, dan pemfilteran konten AI yang bertanggung jawab.

Pelajari selengkapnya tentang Azure OpenAI.

Model bahasa berskala besar

Model bahasa besar (LLM) adalah jenis model AI yang dilatih pada sejumlah besar data teks untuk memahami dan menghasilkan bahasa seperti manusia. LLM biasanya didasarkan pada arsitektur pembelajaran mendalam, seperti transformator. Mereka dikenal karena kemampuan mereka untuk melakukan berbagai pemahaman bahasa alami dan tugas pembuatan bahasa. Layanan Azure OpenAI dan ChatGPT OpenAI adalah contoh penawaran LLM.

Karakteristik dan kemampuan utama LLM meliputi:

Skala: Skala LLM sangat besar, dalam hal jumlah parameter yang digunakan arsitektur mereka. Model seperti GPT-3 berisi dari ratusan juta hingga triliun parameter, yang memungkinkan mereka untuk menangkap pola kompleks dalam bahasa.
Pralatih: LLM menjalani pra-pelatihan pada korpus besar data teks dari internet. Pra-pelatihan ini memungkinkan mereka untuk mempelajari tata bahasa, sintaksis, semantik, dan berbagai pengetahuan tentang bahasa dan dunia.
Penyempurnaan: Setelah pra-pelatihan, LLM dapat disempurnakan pada tugas atau domain tertentu dengan himpunan data khusus tugas yang lebih kecil. Proses penyempurnaan ini memungkinkan mereka beradaptasi dengan tugas yang lebih khusus, seperti klasifikasi teks, terjemahan, ringkasan, dan jawaban atas pertanyaan.

GPT

GPT adalah singkatan dari Generative Pretrained Transformer, dan mengacu pada serangkaian model bahasa besar yang dikembangkan OpenAI. Model GPT adalah jaringan neural yang telah dilatih sebelumnya pada sejumlah besar data dari internet, sehingga mereka mampu memahami dan menghasilkan teks seperti manusia.

Berikut adalah gambaran umum model GPT utama dan karakteristik utamanya:

GPT-3: Dirilis pada Juni 2020 dan model terkenal dalam seri GPT. Ini memiliki 175 miliar parameter, yang menjadikannya salah satu model bahasa terbesar dan paling kuat yang ada.

GPT-3 mencapai performa luar biasa pada berbagai pemahaman bahasa alami dan tugas pembuatan. Ini dapat melakukan tugas seperti penyelesaian teks, terjemahan, dan jawaban atas pertanyaan dengan kefasihan tingkat manusia.

GPT-3 dibagi menjadi berbagai ukuran model, mulai dari yang terkecil (125 juta parameter) hingga yang terbesar (175 miliar parameter).
GPT-4: Model GPT terbaru dari OpenAI. Ini memiliki 1,76 triliun parameter.

Vektor

Vektor adalah konsep matematika yang digunakan dalam aljabar linier dan geometri untuk mewakili jumlah yang memiliki besar dan arah. Dalam konteks pembelajaran mesin, vektor sering digunakan untuk mewakili titik data atau fitur.

Atribut dan operasi utama vektor meliputi:

Besaran: Panjang atau ukuran vektor, sering ditandai sebagai normanya, mewakili besarnya data. Ini adalah angka riil non-negatif.
Arah: Arah menunjukkan orientasi atau sudut kuantitas yang diwakilinya, sehubungan dengan titik referensi atau sistem koordinat.
Komponen: Vektor dapat diurai ke dalam komponennya di sepanjang sumbu atau dimensi yang berbeda. Dalam sistem koordinat Kartesius 2D, vektor dapat diwakili sebagai (x, y), di mana x dan y adalah komponennya di sepanjang sumbu x dan sumbu y, masing-masing. Vektor dalam dimensi n adalah n-tuple ({x1, x2… xn}).
Penambahan dan perkalian skalar: Vektor dapat ditambahkan bersama-sama untuk membentuk vektor baru, dan dapat dikalikan dengan skalar (bilangan riil).
Produk titik dan lintas produk: Vektor dapat dikombinasikan melalui produk titik (produk skalar) dan lintas produk (produk vektor).

Database vektor

Database vektor, juga dikenal sebagai sistem manajemen database vektor (DBMS), adalah jenis sistem database yang dirancang untuk menyimpan, mengelola, dan mengkueri data vektor secara efisien. Database relasional tradisional terutama menangani data terstruktur dalam tabel, sedangkan database vektor dioptimalkan untuk penyimpanan dan pengambilan titik data multidimensi yang diwakili sebagai vektor. Database ini berguna untuk aplikasi di mana operasi seperti pencarian kesamaan, data geospasial, sistem rekomendasi, dan pengklusteran terlibat.

Karakteristik utama database vektor meliputi:

Penyimpanan vektor: Database vektor menyimpan titik data sebagai vektor dengan beberapa dimensi. Setiap dimensi mewakili fitur atau atribut titik data. Vektor ini dapat mewakili berbagai jenis data, termasuk data numerik, kategoris, dan tekstual.
Operasi vektor yang efisien: Database vektor dioptimalkan untuk melakukan operasi vektor, seperti penambahan vektor, pengurangan, produk titik, dan perhitungan kesamaan (misalnya, kesamaan kosinus atau jarak Euclidean).
Pencarian yang efisien: Mekanisme pengindeksan yang efisien sangat penting untuk pengambilan cepat vektor serupa. Database vektor menggunakan berbagai mekanisme pengindeksan untuk memungkinkan pengambilan cepat.
Bahasa kueri: Database vektor menyediakan bahasa kueri dan API yang disesuaikan untuk operasi vektor dan pencarian kesamaan. Bahasa kueri ini memungkinkan pengguna untuk mengekspresikan kriteria pencarian mereka secara efisien.
Pencarian kesamaan: Database vektor unggul pada pencarian kesamaan, yang memungkinkan pengguna menemukan titik data yang mirip dengan titik kueri yang disediakan. Karakteristik ini berharga dalam sistem pencarian dan rekomendasi.
Penanganan data geospasial: Beberapa database vektor dirancang untuk data geospasial, sehingga sangat cocok untuk aplikasi seperti layanan berbasis lokasi, sistem informasi geografis (GIS), dan tugas terkait peta.
Dukungan untuk berbagai jenis data: Database vektor dapat menyimpan dan mengelola berbagai jenis data, seperti vektor, gambar, dan teks.

PostgreSQL dapat memperoleh kemampuan database vektor dengan bantuan pgvector ekstensi.

Penyematan

Penyematan adalah konsep dalam pembelajaran mesin dan pemrosesan bahasa alami yang melibatkan mewakili objek (seperti kata, dokumen, atau entitas) sebagai vektor dalam ruang multidimensi.

Vektor ini sering padat. Artinya, mereka memiliki jumlah dimensi yang tinggi. Mereka dipelajari melalui berbagai teknik, termasuk jaringan neural. Penyematan bertujuan untuk menangkap hubungan semantik dan kesamaan antara objek dalam ruang vektor berkelanjutan.

Jenis penyematan umum meliputi:

Word: Dalam pemrosesan bahasa alami, penyematan kata mewakili kata sebagai vektor. Setiap kata dipetakan ke vektor dalam ruang dimensi tinggi, di mana kata-kata dengan arti atau konteks serupa terletak lebih dekat satu sama lain. Word2Vec dan GloVe merupakan teknik penyematan kata yang populer.
Dokumen: Penyematan dokumen mewakili dokumen sebagai vektor. Doc2Vec populer untuk membuat penyematan dokumen.
Gambar: Gambar dapat direpresentasikan sebagai penyematan untuk mengambil fitur visual untuk tugas seperti pengenalan objek.

Embedding penting dalam merepresentasikan data berdimensi tinggi yang kompleks dalam bentuk yang bisa dengan mudah diproses oleh model pembelajaran mesin. Mereka dapat dilatih pada himpunan data besar dan kemudian digunakan sebagai fitur untuk berbagai tugas. LLM menggunakannya.

PostgreSQL dapat memperoleh kemampuan menghasilkan penyematan vektor dengan integrasi OpenAI ekstensi Azure AI.

Skenario

AI generatif memiliki berbagai aplikasi di berbagai domain dan industri, termasuk teknologi, layanan kesehatan, hiburan, keuangan, manufaktur, dan banyak lagi. Berikut adalah beberapa tugas umum yang dapat diselesaikan orang dengan menggunakan AI generatif:

Pencarian semantik:
- AI generatif memungkinkan pencarian semantik pada data daripada pencarian leksikografis. Yang terakhir mencari kecocokan yang tepat dengan kueri, sedangkan pencarian semantik menemukan konten yang memenuhi niat kueri pencarian.
Chatbots dan asisten virtual:
- Mengembangkan chatbot yang dapat terlibat dalam percakapan sadar konteks alami; misalnya, untuk menerapkan bantuan mandiri bagi pelanggan.
Sistem rekomendasi:
- Meningkatkan algoritma rekomendasi dengan menghasilkan penyematan atau representasi item atau pengguna.
Pengklusteran dan segmentasi:
- Penyematan yang dihasilkan oleh AI generatif memungkinkan algoritma klastering untuk mengelompokkan data sehingga data serupa terkumpul bersama. Pengklusteran ini memungkinkan skenario seperti segmentasi pelanggan, yang memungkinkan pengiklan untuk menargetkan pelanggan mereka secara berbeda berdasarkan atribut mereka.
Pembuatan konten:
- Hasilkan teks seperti manusia untuk aplikasi seperti chatbot, pembuatan novel/puisi, dan pemahaman bahasa alami.
- Buat gambar, karya seni, atau desain yang realistis untuk grafis, hiburan, dan iklan.
- Hasilkan video, animasi, atau efek video untuk film, game, dan pemasaran.
- Hasilkan musik.
Terjemahan:
- Terjemahkan teks dari satu bahasa ke bahasa lain.
Ringkasan:
- Ringkas artikel atau dokumen panjang untuk mengekstrak informasi utama.
Augmentasi data
- Hasilkan sampel data tambahan untuk memperluas dan meningkatkan himpunan data pelatihan untuk model pembelajaran mesin.
- Buat data sintetis untuk skenario yang sulit atau mahal untuk dikumpulkan di dunia nyata, seperti pencitraan medis.
Penemuan obat:
- Hasilkan struktur molekul dan prediksi kandidat obat potensial untuk penelitian farmasi.
Pengembangan game:
- Buat konten game, termasuk level, karakter, dan tekstur.
- Hasilkan lingkungan dan lanskap dalam game yang realistis.
Pembersihan dan penyempurnaan data
- Bersihkan data berisik dengan menghasilkan sampel data yang bersih.
- Isi data yang hilang atau tidak lengkap dalam himpunan data.

Saran dan Komentar

Apakah halaman ini membantu?

Last updated on 2025-06-27