Bagikan melalui


Model Azure AI Foundry tersedia untuk penyebaran API tanpa server

Katalog model Azure AI menawarkan banyak pilihan Model Azure AI Foundry dari berbagai penyedia. Anda memiliki berbagai opsi untuk mengimplementasikan model dari katalog model. Artikel ini mencantumkan Model Azure AI Foundry yang dapat disebarkan melalui penyebaran API tanpa server. Untuk beberapa model ini, Anda juga dapat menghostingnya di infrastruktur Anda untuk penyebaran melalui komputasi terkelola.

Penting

Model yang dalam pratinjau diberi label pratinjau pada kartu modelnya di katalog model.

Untuk melakukan inferensi dengan model, beberapa model seperti TimeGEN-1 dan Cohere RerankNixtla mengharuskan Anda menggunakan API kustom dari penyedia model. Yang lain mendukung inferensi menggunakan API Inferensi Model. Anda dapat menemukan detail selengkapnya tentang model individual dengan meninjau kartu model mereka di katalog model untuk portal Azure AI Foundry.

Animasi yang memperlihatkan bagian katalog model Azure AI Foundry dan model yang tersedia.

Lab AI21

Model keluarga Jamba adalah model bahasa besar tingkat produksi berbasis Mamba dari AI21 yang menggunakan arsitektur hibrida Mamba-Transformer AI21. Ini adalah versi yang disesuaikan dengan instruksi dari model transformer Jamba dari model ruang status terstruktur hibrida (SSM) AI21. Model keluarga Jamba dibangun untuk penggunaan komersial yang andal sehubungan dengan kualitas dan performa.

Modél Tipe Kemampuan
AI21-Jamba-1.5-Mini chat selesai - Input: teks (262,144 token)
- Output: teks (4.096 token)
- Panggilan alat: Ya
- Format respons: Teks, JSON, dalam bentuk terstruktur
AI21-Jamba-1.5-Large chat selesai - Input: teks (262,144 token)
- Output: teks (4.096 token)
- Panggilan alat: Ya
- Format respons: Teks, JSON, dalam bentuk terstruktur

Lihat koleksi model ini di portal Azure AI Foundry.

Azure OpenAI

Azure OpenAI di Foundry Models menawarkan serangkaian model yang beragam dengan kemampuan dan titik harga yang berbeda. Model-model ini meliputi:

  • Model canggih yang dirancang untuk mengatasi tugas penalaran dan pemecahan masalah dengan peningkatan fokus dan kemampuan
  • Model yang dapat memahami dan menghasilkan bahasa dan kode alami
  • Model yang dapat mentranskripsikan dan menerjemahkan ucapan ke teks
Modél Tipe Kemampuan
o3-mini chat selesai - Input: teks dan gambar (200.000 token)
- Keluaran: text (100,000 tokens)
- Panggilan alat: Ya
- Format respons: Teks, JSON, dalam bentuk terstruktur
o1 penyelesaian obrolan (dengan gambar) - Input: teks dan gambar (200.000 token)
- Keluaran: text (100,000 tokens)
- Panggilan alat: Ya
- Format respons: Teks, JSON, dalam bentuk terstruktur
o1-pratinjau chat selesai - Masukan: text (128,000 tokens)
- Output: teks (32,768 token)
- Panggilan alat: Ya
- Format respons: Teks, JSON, dalam bentuk terstruktur
o1-mini chat selesai - Masukan: text (128,000 tokens)
- Output: teks (65.536 token)
- Panggilan alat: Tidak
- Format respons: Teks
gpt-4o-realtime-preview waktu nyata - Input: kontrol, teks, dan audio (131.072 token)
- Output: teks dan audio (16.384 token)
- Panggilan alat: Ya
- Format respons: Teks, JSON
gpt-4o penyelesaian obrolan (dengan konten gambar dan audio) - Input: teks, gambar, dan audio (131.072 token)
- Output: teks (16.384 token)
- Panggilan alat: Ya
- Format respons: Teks, JSON, dalam bentuk terstruktur
gpt-4o-mini penyelesaian obrolan (dengan konten gambar dan audio) - Input: teks, gambar, dan audio (131.072 token)
- Output: teks (16.384 token)
- Panggilan alat: Ya
- Format respons: Teks, JSON, dalam bentuk terstruktur
penyematan-teks-3-besar penyematan - Input: teks (8,191 token)
- Hasil: Vektor (3.072 dimensi)
text-embedding-3-small penyematan - Input: teks (8,191 token)
- Hasil: Vektor (1.536 dim.)

Lihat koleksi model ini di portal Azure AI Foundry.

Cohere

Keluarga model Cohere mencakup berbagai model yang dioptimalkan untuk berbagai penggunaan, termasuk rerank, penyelesaian obrolan, dan model embeddings.

Perintah Cohere dan Gabungkan

Tabel berikut mencantumkan model Cohere yang dapat Anda inferensikan melalui API Inferensi Model.

Modél Tipe Kemampuan
Kohere-command-A chat selesai - Input: teks (256.000 token)
- Keluaran: teks (8.000 token)
- Panggilan alat: Ya
- Format respons: Teks
Cohere-command-r-plus-08-2024 chat selesai - Input: teks (131,072 token)
- Output: teks (4.096 token)
- Panggilan alat: Ya
- Format respons: Teks, JSON
Cohere-command-r-08-2024 chat selesai - Input: teks (131,072 token)
- Output: teks (4.096 token)
- Panggilan alat: Ya
- Format respons: Teks, JSON
Cohere-command-r-plus
(tidak digunakan lagi)
chat selesai - Input: teks (131,072 token)
- Output: teks (4.096 token)
- Panggilan alat: Ya
- Format respons: Teks, JSON
Cohere-command-r
(tidak digunakan lagi)
chat selesai - Input: teks (131,072 token)
- Output: teks (4.096 token)
- Panggilan alat: Ya
- Format respons: Teks, JSON
Cohere-embed-v-4 penyematan
penyematan gambar
- Input: gambar, teks
- Output: gambar, teks (128.000 token)
- Panggilan alat: Ya
- Format respons: gambar, teks
Cohere-embed-v3-english penyematan
penyematan gambar
- Input: teks (512 token)
- Hasil: Vektor (1.024 dimensi)
Cohere-embed-v3-multilingual penyematan
penyematan gambar
- Input: teks (512 token)
- Hasil: Vektor (1.024 dimensi)

Contoh inferensi: Perintah Cohere dan sematkan

Untuk contoh selengkapnya tentang cara menggunakan model Cohere, lihat contoh berikut:

Deskripsi Bahasa Contoh
Permintaan web Bash (sebuah bahasa shell dan bahasa perintah untuk Unix) Command-RCommand-R+
cohere-embed.ipynb
Paket Inferensi Azure AI untuk C# C# Tautan
Paket Inferensi Azure AI untuk JavaScript JavaScript Tautan
Paket Inferensi Azure AI untuk Python Phyton Tautan
OpenAI SDK (eksperimental) Phyton Tautan
LangChain Phyton Tautan
Cohere SDK Phyton Perintah
Embed
LiteLLM SDK Phyton Tautan

Pengambilan Augmented Generation (RAG) dan contoh penggunaan alat: perintah Cohere dan penyematan

Deskripsi Paket Contoh
Buat indeks vektor pencarian kemiripan AI Facebook lokal (FAISS) dengan menggunakan embedding Cohere - Langchain langchain, langchain_cohere cohere_faiss_langchain_embed.ipynb
Gunakan Cohere Command R/R+ untuk menjawab pertanyaan dari data dalam indeks vektor FAISS lokal - Langchain langchain, langchain_cohere command_faiss_langchain.ipynb
Gunakan Cohere Command R/R+ untuk menjawab pertanyaan dari data dalam indeks vektor pencarian AI - Langchain langchain, langchain_cohere cohere-aisearch-langchain-rag.ipynb
Gunakan Cohere Command R/R+ untuk menjawab pertanyaan dari data dalam indeks vektor pencarian AI - Cohere SDK cohere, azure_search_documents cohere-aisearch-rag.ipynb
Pemanggilan alat/fungsi Command R+, menggunakan LangChain cohere, langchain, langchain_cohere command_tools-langchain.ipynb

Pengurutan Ulang Cohere

Tabel berikut mencantumkan model rerank Cohere. Untuk melakukan inferensi dengan model rerank ini, Anda diharuskan menggunakan API rerank kustom Cohere yang tercantum dalam tabel.

Modél Tipe API inferensi
Cohere-rerank-v3.5 peringkat ulang
klasifikasi teks
API v2/rerank dari Cohere
Cohere-rerank-v3-bahasa-inggris
(tidak digunakan lagi)
peringkat ulang
klasifikasi teks
API v2/rerank dari Cohere
Cohere API v1/rerank
Cohere-rerank-v3-multibahasa
(tidak digunakan lagi)
peringkat ulang
klasifikasi teks
API v2/rerank dari Cohere
Cohere API v1/rerank

Penetapan harga untuk model pengurutan ulang Cohere

Kueri, jangan disamakan dengan kueri pengguna, adalah pengukur harga yang mengacu pada biaya yang terkait dengan token yang digunakan sebagai input untuk inferensi model Cohere Rerank. Cohere menghitung satu unit pencarian sebagai kueri dengan hingga 100 dokumen yang akan diberi peringkat. Dokumen lebih dari 500 token (untuk cohere-rerank-v3.5) atau lebih dari 4096 token (untuk cohere-rerank-v3-English dan Cohere-rerank-v3-multilingual) ketika menyertakan panjang kueri pencarian dibagi menjadi beberapa gugus, di mana setiap gugus dihitung sebagai satu dokumen.

Lihat koleksi model Cohere di portal Azure AI Foundry.

Core42

Core42 mencakup LLM bi-lingual autoregresif untuk bahasa Arab dan Inggris dengan kemampuan mutakhir dalam bahasa Arab.

Modél Tipe Kemampuan
jais-30b-chat chat selesai - Masukan: teks (8,192 token)
- Output: teks (4.096 token)
- Panggilan alat: Ya
- Format respons: Teks, JSON

Lihat koleksi model ini di portal Azure AI Foundry.

Contoh inferensi: Core42

Untuk contoh selengkapnya tentang cara menggunakan model Jais, lihat contoh berikut:

Deskripsi Bahasa Contoh
Paket Inferensi Azure AI untuk C# C# Tautan
Paket Inferensi Azure AI untuk JavaScript JavaScript Tautan
Paket Inferensi Azure AI untuk Python Phyton Tautan

DeepSeek

Keluarga model DeepSeek mencakup DeepSeek-R1, yang unggul dalam tugas penalaran menggunakan proses pelatihan langkah demi langkah, seperti bahasa, penalaran ilmiah, dan tugas pemrograman, serta DeepSeek-V3-0324, model bahasa Mixture-of-Experts (MoE), dan lain-lain.

Modél Tipe Kemampuan
DeepSeek-R1-0528
penyelesaian percakapan dengan konten penalaran - Input: teks (163.840 token)
- Output: teks (163.840 token)
- Bahasa:en dan zh
- Panggilan alat: Tidak
- Format respons: Teks
DeekSeek-V3-0324 chat selesai - Input: teks (131,072 token)
- Output: (131.072 token)
- Panggilan alat: Tidak
- Format respons: Teks, JSON
DeepSeek-V3
(Warisan)
chat selesai - Input: teks (131,072 token)
- Output: teks (131.072 jumlah token)
- Panggilan alat: Tidak
- Format respons: Teks, JSON
DeepSeek-R1 penyelesaian percakapan dengan konten penalaran - Input: teks (163.840 token)
- Output: teks (163.840 token)
- Panggilan alat: Tidak
- Format respons: Teks.

Untuk tutorial tentang DeepSeek-R1, lihat Tutorial: Mulai menggunakan model penalaran DeepSeek-R1 dalam Model Foundry.

Lihat koleksi model ini di portal Azure AI Foundry.

Contoh inferensi: DeepSeek

Untuk contoh selengkapnya tentang cara menggunakan model DeepSeek, lihat contoh berikut:

Deskripsi Bahasa Contoh
Paket Inferensi Azure AI untuk Python Phyton Tautan
Paket Inferensi Azure AI untuk JavaScript JavaScript Tautan
Paket Inferensi Azure AI untuk C# C# Tautan
Paket Inferensi Azure AI untuk Java Jawa Tautan

Meta

Model dan alat Meta Llama adalah kumpulan teks AI dan model penalaran gambar generatif yang telah dilatih dan disempurnakan. Rentang model meta dapat diskalakan agar mencakup:

  • Model bahasa kecil (SLM) seperti model Base 1B dan 3B serta model Instruct untuk inferensi pada perangkat dan edge
  • Model bahasa besar berukuran sedang (LLM) seperti model Dasar dan Instruksi 7B, 8B, dan 70B
  • Model berperforma tinggi seperti Meta Llama 3.1-405B Instruct untuk pembuatan data sintetis dan kasus penggunaan destilasi.
  • Model multimodal asli berperforma tinggi, Llama 4 Scout dan Llama 4 Maverick, memanfaatkan arsitektur gabungan ahli untuk menawarkan performa terdepan dalam pemahaman teks dan gambar di industri.
Modél Tipe Kemampuan
Llama-4-Scout-17B-16E-Instruct chat selesai - Input: teks dan gambar (128.000 token)
- Output: teks (8,192 token)
- Panggilan alat: Tidak
- Format respons: Teks
Llama 4-Maverick-17B-128E-Instruct-FP8 chat selesai - Input: teks dan gambar (128.000 token)
- Output: teks (8,192 token)
- Panggilan alat: Tidak
- Format respons: Teks
Llama-3.3-70B-Instruct chat selesai - Masukan: text (128,000 tokens)
- Output: teks (8,192 token)
- Panggilan alat: Tidak
- Format respons: Teks
Llama-3.2-90B-Vision-Instruct penyelesaian obrolan (dengan gambar) - Input: teks dan gambar (128.000 token)
- Output: teks (8,192 token)
- Panggilan alat: Tidak
- Format respons: Teks
Llama-3.2-11B-Vision-Instruct penyelesaian obrolan (dengan gambar) - Input: teks dan gambar (128.000 token)
- Output: teks (8,192 token)
- Panggilan alat: Tidak
- Format respons: Teks
Meta-Llama-3.1-8B-Instruct chat selesai - Input: teks (131,072 token)
- Output: teks (8,192 token)
- Panggilan alat: Tidak
- Format respons: Teks
Meta-Llama-3.1-405B-Instruct chat selesai - Input: teks (131,072 token)
- Output: teks (8,192 token)
- Panggilan alat: Tidak
- Format respons: Teks
Meta-Llama-3.1-70B-Instruct (tidak digunakan lagi) chat selesai - Input: teks (131,072 token)
- Output: teks (8,192 token)
- Panggilan alat: Tidak
- Format respons: Teks
Meta-Llama-3-8B-Instruct (tidak digunakan lagi) chat selesai - Masukan: teks (8,192 token)
- Output: teks (8,192 token)
- Panggilan alat: Tidak
- Format respons: Teks
Meta-Llama-3-70B-Instruct (tidak digunakan lagi) chat selesai - Masukan: teks (8,192 token)
- Output: teks (8,192 token)
- Panggilan alat: Tidak
- Format respons: Teks

Lihat koleksi model ini di portal Azure AI Foundry.

Contoh inferensi: Meta Llama

Untuk contoh selengkapnya tentang cara menggunakan model Meta Llama, lihat contoh berikut:

Deskripsi Bahasa Contoh
permintaan CURL Bash (sebuah bahasa shell dan bahasa perintah untuk Unix) Tautan
Paket Inferensi Azure AI untuk C# C# Tautan
Paket Inferensi Azure AI untuk JavaScript JavaScript Tautan
Paket Inferensi Azure AI untuk Python Phyton Tautan
Permintaan HTTP dengan Python Phyton Tautan
OpenAI SDK (eksperimental) Phyton Tautan
LangChain Phyton Tautan
LiteLLM Phyton Tautan

Microsoft

Model Microsoft mencakup berbagai grup model seperti model MAI, model Phi, model AI layanan kesehatan, dan banyak lagi. Untuk melihat semua model Microsoft yang tersedia, lihat koleksi model Microsoft di portal Azure AI Foundry.

Modél Tipe Kemampuan
MAI-DS-R1 penyelesaian percakapan dengan konten penalaran - Input: teks (163.840 token)
- Output: teks (163.840 token)
- Panggilan alat: Tidak
- Format respons: Teks.
Phi-4-penalaran penyelesaian percakapan dengan konten penalaran - Input: teks (32768 token)
- Output: teks (32768 token)
- Panggilan alat: Tidak
- Format respons: Teks
Phi-4-mini-reasoning penyelesaian percakapan dengan konten penalaran - Masukan: text (128,000 tokens)
- Output: teks (128.000 token)
- Panggilan alat: Tidak
- Format respons: Teks
Phi-4-multimodal-instruct penyelesaian obrolan (dengan konten gambar dan audio) - Input: teks, gambar, dan audio (131.072 token)
- Output: teks (4.096 token)
- Panggilan alat: Tidak
- Format respons: Teks
Phi-4-mini-instruct chat selesai - Input: teks (131,072 token)
- Output: teks (4.096 token)
- Panggilan alat: Tidak
- Format respons: Teks
Phi-4 chat selesai - Input: teks (16,384 token)
- Output: teks (16.384 token)
- Panggilan alat: Tidak
- Format respons: Teks
Phi-3.5-mini-instruct chat selesai - Input: teks (131,072 token)
- Output: teks (4.096 token)
- Panggilan alat: Tidak
- Format respons: Teks
Phi-3.5-MoE-instruct chat selesai - Input: teks (131,072 token)
- Output: teks (4.096 token)
- Panggilan alat: Tidak
- Format respons: Teks
Phi-3.5-vision-instruct penyelesaian obrolan (dengan gambar) - Input: teks dan gambar (131.072 token)
- Output: teks (4.096 token)
- Panggilan alat: Tidak
- Format respons: Teks
Phi-3-mini-128k-instruct chat selesai - Input: teks (131,072 token)
- Output: teks (4.096 token)
- Panggilan alat: Tidak
- Format respons: Teks
Phi-3-mini-4k-instruct chat selesai - Input: teks (4.096 token)
- Output: teks (4.096 token)
- Panggilan alat: Tidak
- Format respons: Teks
Phi-3-small-128k-instruct chat selesai - Input: teks (131,072 token)
- Output: teks (4.096 token)
- Panggilan alat: Tidak
- Format respons: Teks
Phi-3-small-8k-instruct chat selesai - Input: teks (131,072 token)
- Output: teks (4.096 token)
- Panggilan alat: Tidak
- Format respons: Teks
Phi-3-medium-128k-instruct chat selesai - Input: teks (131,072 token)
- Output: teks (4.096 token)
- Panggilan alat: Tidak
- Format respons: Teks
Phi-3-medium-4k-instruct chat selesai - Input: teks (4.096 token)
- Output: teks (4.096 token)
- Panggilan alat: Tidak
- Format respons: Teks

Contoh inferensi: Model Microsoft

Untuk contoh selengkapnya tentang cara menggunakan model Microsoft, lihat contoh berikut:

Deskripsi Bahasa Contoh
Paket Inferensi Azure AI untuk C# C# Tautan
Paket Inferensi Azure AI untuk JavaScript JavaScript Tautan
Paket Inferensi Azure AI untuk Python Phyton Tautan
LangChain Phyton Tautan
Llama-Index Phyton Tautan

Lihat koleksi model Microsoft di portal Azure AI Foundry.

Mistral Kecerdasan Buatan

Mistral AI menawarkan dua kategori model, yaitu:

  • Model premium: Ini termasuk model Mistral Large, Mistral Small, Mistral-OCR-2503, Mistral Medium 3 (25.05), dan Ministral 3B, dan tersedia sebagai API tanpa server dengan penagihan berbasis token bayar sesuai penggunaan.
  • Model terbuka: Ini termasuk Mistral-small-2503, Codestral, dan Mistral Nemo (yang tersedia sebagai API tanpa server dengan penagihan berbasis token bayar sesuai penggunaan), dan Mixtral-8x7B-Instruct-v01, Mixtral-8x7B-v01, Mistral-7B-Instruct-v01, dan Mistral-7B-v01(yang tersedia untuk diunduh dan dijalankan pada titik akhir terkelola yang dihost sendiri).
Modél Tipe Kemampuan
Codestral-2501 chat selesai - Input: teks (262,144 token)
- Output: teks (4.096 token)
- Panggilan alat: Tidak
- Format respons: Teks
Ministral-3B chat selesai - Input: teks (131,072 token)
- Output: teks (4.096 token)
- Panggilan alat: Ya
- Format respons: Teks, JSON
Mistral-Nemo chat selesai - Input: teks (131,072 token)
- Output: teks (4.096 token)
- Panggilan alat: Ya
- Format respons: Teks, JSON
Mistral-Large-2411 chat selesai - Masukan: text (128,000 tokens)
- Output: teks (4.096 token)
- Panggilan alat: Ya
- Format respons: Teks, JSON
Mistral-large-2407
(tidak digunakan lagi)
chat selesai - Input: teks (131,072 token)
- Output: teks (4.096 token)
- Panggilan alat: Ya
- Format respons: Teks, JSON
Mistral-large
(tidak digunakan lagi)
chat selesai - Input: teks (32,768 token)
- Output: teks (4.096 token)
- Panggilan alat: Ya
- Format respons: Teks, JSON
Mistral-medium-2505 chat selesai - Input: teks (128.000 token), gambar
- Output: teks (128.000 token)
- Panggilan alat: Tidak
- Format respons: Teks, JSON
Mistral-OCR-2503 gambar ke teks - Input: gambar atau halaman PDF (1.000 halaman, maksimal file PDF 50MB)
- Keluaran: teks
- Panggilan alat: Tidak
- Format respons: Teks, JSON, Markdown
Mistral-small-2503 penyelesaian obrolan (dengan gambar) - Input: teks dan gambar (131.072 token),
token berbasis gambar adalah 16px x 16px
bagian-bagian dari gambar asli
- Output: teks (4.096 token)
- Panggilan alat: Ya
- Format respons: Teks, JSON
Mistral-small chat selesai - Input: teks (32,768 token)
- Output: teks (4.096 token)
- Panggilan alat: Ya
- Format respons: Teks, JSON

Lihat koleksi model ini di portal Azure AI Foundry.

Contoh inferensi: Mistral

Untuk contoh selengkapnya tentang cara menggunakan model Mistral, lihat contoh dan tutorial berikut:

Deskripsi Bahasa Contoh
permintaan CURL Bash (sebuah bahasa shell dan bahasa perintah untuk Unix) Tautan
Paket Inferensi Azure AI untuk C# C# Tautan
Paket Inferensi Azure AI untuk JavaScript JavaScript Tautan
Paket Inferensi Azure AI untuk Python Phyton Tautan
Permintaan HTTP dengan Python Phyton Tautan
OpenAI SDK (eksperimental) Phyton Mistral - Sampel OpenAI SDK
LangChain Phyton Mistral - Sampel LangChain
Mistral Kecerdasan Buatan Phyton Mistral - Contoh Mistral AI
LiteLLM Phyton Mistral - Sampel LiteLLM

Nixtla

TimeGEN-1 Nixtla adalah model prakiraan dan deteksi anomali yang telah dilatih sebelumnya dan generatif untuk data rangkaian waktu. TimeGEN-1 dapat menghasilkan perkiraan yang akurat untuk rangkaian waktu baru tanpa pelatihan, hanya menggunakan nilai historis dan kovariate eksogen sebagai input.

Untuk melakukan inferensi, TimeGEN-1 mengharuskan Anda menggunakan API inferensi kustom Nixtla.

Modél Tipe Kemampuan API inferensi
TimeGEN-1 Peramalan - Masukan: Data rangkaian waktu sebagai JSON atau dataframe (dengan dukungan untuk input multivariat)
- Hasil: Data rangkaian waktu sebagai JSON
- Panggilan alat: Tidak
- Format tanggapan: JSON
Memperkirakan bahwa klien akan berinteraksi dengan API Nixtla

Memperkirakan jumlah token yang diperlukan

Sebelum Anda membuat penyebaran TimeGEN-1, adalah langkah yang baik untuk memperkirakan jumlah token yang akan Anda gunakan dan yang akan ditagihkan. Satu token sesuai dengan satu titik data dalam himpunan data input atau himpunan data output Anda.

Misalkan Anda memiliki himpunan data rangkaian waktu input berikut:

Unique_id Penanda Waktu Variabel Sasaran Variabel Eksogen 1 Variabel Eksogen 2
ADA 2016-10-22 00:00:00 70.00 49593.0 57253,0
ADA 2016-10-22 01:00:00 37.10 46073.0 51.887,0

Untuk menentukan jumlah token, kalikan jumlah baris (dalam contoh ini, dua) dan jumlah kolom yang digunakan untuk prakiraan—tidak menghitung kolom unique_id dan tanda waktu (dalam contoh ini, tiga) untuk mendapatkan total enam token.

Mengingat himpunan data output berikut:

Unique_id Penanda Waktu Variabel Target yang Diramalkan
ADA 2016-10-22 02:00:00 46.57
ADA 2016-10-22 03:00:00 48.57

Anda juga dapat menentukan jumlah token dengan menghitung jumlah poin data yang dikembalikan setelah prakiraan data. Dalam contoh ini, jumlah token adalah dua.

Memperkirakan harga berdasarkan token

Ada empat meter harga yang menentukan harga yang Anda bayar. Meteran ini adalah sebagai berikut:

Pengukur Harga Deskripsi
paygo-inferensi-token-masukan Biaya yang terkait dengan token yang digunakan sebagai input untuk inferensi saat finetune_steps = 0
token keluaran inferensi bayar sesuai penggunaan Biaya yang terkait dengan token yang digunakan sebagai output untuk inferensi saat finetune_steps = 0
paygo-finetuned-model-inference-masukan-token Biaya yang terkait dengan token yang digunakan sebagai input untuk inferensi saat finetune_steps> 0
inferensi-model-penyetelan-lanjutan-keluaran-token-paygo Biaya yang terkait dengan token yang digunakan sebagai output untuk inferensi saat finetune_steps> 0

Lihat koleksi model Nixtla di portal Azure AI Foundry.

NTT DATA

tsuzumi adalah transformator yang dioptimalkan bahasa autoregresif. Versi yang disesuaikan menggunakan penyetelan halus yang diawasi (SFT). tsuzumi menangani bahasa Jepang dan Inggris dengan efisiensi tinggi.

Modél Tipe Kemampuan
tsuzumi-7b chat selesai - Masukan: teks (8,192 token)
- Output: teks (8,192 token)
- Panggilan alat: Tidak
- Format respons: Teks

Stabilitas AI

Koleksi Stabilitas AI model pembuatan gambar termasuk Stable Image Core, Stable Image Ultra dan Stable Diffusion 3.5 Large. Stable Diffusion 3.5 Large memungkinkan input berupa gambar dan teks.

Modél Tipe Kemampuan
Stable Diffusion 3,5 Large Pembuatan gambar - Input: teks dan gambar (1000 token dan 1 gambar)
- Output: 1 Gambar
- Panggilan alat: Tidak
- Format respons: Gambar (PNG dan JPG)
Inti Gambar yang Stabil Pembuatan gambar - Masukan: text (1000 tokens)
- Output: 1 Gambar
- Panggilan alat: Tidak
- Format respons: Gambar (PNG dan JPG)
Ultra Image Stabil Pembuatan gambar - Masukan: text (1000 tokens)
- Output: 1 Gambar
- Panggilan alat: Tidak
- Format respons: Gambar (PNG dan JPG)

xAI

Model Grok 3 dan Grok 3 Mini xAI dirancang untuk unggul di berbagai domain perusahaan. Grok 3, model tanpa penalaran yang telah dilatih sebelumnya oleh pusat data Colossus, disesuaikan untuk kasus penggunaan bisnis seperti ekstraksi data, pemrograman, dan ringkasan teks, dengan kemampuan mengikuti instruksi yang luar biasa. Ini mendukung jendela konteks token 131.072, memungkinkannya untuk menangani input yang luas sambil mempertahankan koherensi dan kedalaman, dan sangat mahir menggambar koneksi di seluruh domain dan bahasa. Di sisi lain, Grok 3 Mini adalah model penalaran ringan yang dilatih untuk mengatasi masalah agenik, pengodean, matematika, dan ilmu mendalam dengan komputasi waktu uji. Ini juga mendukung jendela konteks token 131.072 untuk memahami basis kode dan dokumen perusahaan, serta unggul dalam menggunakan alat untuk menyelesaikan masalah logis yang kompleks di lingkungan baru, menyediakan jejak penalaran mentah untuk ditinjau pengguna dengan anggaran pemikiran yang dapat disesuaikan.

Modél Tipe Kemampuan
grok-3 penyelesaian percakapan - Input: teks (131,072 token)
- Output: teks (131.072 jumlah token)
- Bahasa:en
- Panggilan alat: ya
- Format respons: teks
grok-3-mini penyelesaian percakapan - Input: teks (131,072 token)
- Output: teks (131.072 jumlah token)
- Bahasa:en
- Panggilan alat: ya
- Format respons: teks

Contoh inferensi: Stabilitas AI

Model AI stabilitas yang disebarkan melalui penyebaran API tanpa server mengimplementasikan API Inferensi Model pada rute /image/generations. Untuk contoh cara menggunakan model AI Stabilitas, lihat contoh berikut: